Η τεχνολογία μετατροπής κειμένου σε ομιλία έχει σημειώσει τεράστια πρόοδο τα τελευταία χρόνια. Με τις βελτιώσεις στην τεχνητή νοημοσύνη, το σύγχρονο TTS αποδίδει ομιλίες υψηλής ποιότητας, μιμούμενο τη φυσική ανθρώπινη φωνή.
Το VALL-E της Microsoft είναι η πιο πρόσφατη τεχνολογική λύση που κάνει την ομιλία μέσω TTS να ακούγεται εντυπωσιακά φυσική. Πρόκειται για ένα νευρωνικό γλωσσικό μοντέλο κωδικοποιητή βασισμένο σε μηχανική μάθηση τύπου zero-shot.
Αν η προηγούμενη πρόταση σας ακούγεται πολύπλοκη, μην ανησυχείτε. Παρακάτω θα εξηγήσουμε με απλά λόγια τις βασικές έννοιες του VALL-E.
Εξήγηση του Microsoft VALL-E
Τα μοντέλα AI γίνονται συνεχώς ισχυρότερα. Όλοι πλέον γνωρίζουν το ChatGPT της OpenAI, που πλησιάζει σε ανθρώπινη φυσικότητα, αλλά και τις εικόνες της DALL-E που δημιουργούνται με AI.
Εκτός από νεοφυείς εταιρίες όπως η OpenAI, και κολοσσοί όπως η Microsoft διαδραματίζουν καίριο ρόλο στον κλάδο της τεχνητής νοημοσύνης.
Οι ερευνητές της Microsoft εργάζονται πάνω σε νέες μεθόδους για σύνθεση ομιλίας από κείμενο. Το VALL-E είναι χαρακτηριστικό δείγμα αυτής της προόδου.
Η νέα AI αλλάζει τα δεδομένα στο TTS, παράγοντας ανθρώπινη ομιλία από ένα ελάχιστο ηχητικό δείγμα. Αρκούν μόνο τρία δευτερόλεπτα ήχου για να εντοπίσει τα μοτίβα του ομιλητή.
Αφού λάβει το δείγμα, το AI μπορεί να μιμηθεί τη φωνή και τον συναισθηματικό τόνο του ανθρώπου. Εξίσου εντυπωσιακό είναι ότι διατηρεί και το ηχητικό περιβάλλον του ομιλητή.
Με απλά λόγια, το VALL-E διαπρέπει στην αντιστοίχιση φωνής. Μπορείτε να το ακούσετε στο GitHub, όπου η Microsoft παρέχει δείγματα και εξηγήσεις.
Αυτή η τεχνολογία έχει πολλές χρήσεις, όπως δημιουργία podcast και audiobooks. Οι δυνατότητες πολλαπλασιάζονται αν συνδυαστεί με μοντέλα όπως το GPT-3.
Όμως, η τεχνολογία VALL-E θα μπορούσε να αξιοποιηθεί και για κακόβουλους σκοπούς.
Δεδομένου ότι το VALL-E ακούγεται πολύ πειστικά σαν πραγματικός άνθρωπος, είναι προφανές πώς επιτήδειοι μπορούν να το χρησιμοποιήσουν για απάτες, όπως επιβλαβή deepfakes. Αυτό οδήγησε τη Microsoft να εκδώσει σχετική ανακοίνωση ηθικής.
Η εταιρεία προτείνει ειδικά μοντέλα επεξεργασίας ομιλίας που απαιτούν τη ρητή συγκατάθεση του αρχικού ομιλητή.
Ωστόσο, οι αντιπαραθέσεις για τη χρήση του VALL-E μένουν προς το παρόν για το μέλλον. Σήμερα υπάρχει ένα πιο ενδιαφέρον ερώτημα:
Πώς η AI αναπαράγει τόσο σύνθετα πρότυπα με μόνο τρία δευτερόλεπτα ήχου ως αρχικό δείγμα;
Η απάντηση είναι, όπως είναι φυσικό, αρκετά πολύπλοκη.
Το VALL-E εκπαιδεύτηκε σε χιλιάδες ώρες ομιλίας στα αγγλικά, ώστε να προσομοιώνει απρόσκοπτα τη γλώσσα. Όμως δεν είναι ένα συνηθισμένο σύστημα TTS – βασίζεται σε προηγμένη μηχανική μάθηση.
Έχουμε ήδη αναφέρει το όνομα της τεχνολογίας: zero-shot neural codec language model. Ας δούμε τι σημαίνουν στην πράξη αυτοί οι όροι.
Τι είναι τα zero-shot neural codec language models
Ξεκινώντας από τον απλούστερο όρο, το "zero-shot" αναφέρεται σε τεχνολογία TTS που δημιουργεί ομιλία AI από άγνωστα δεδομένα. Δηλαδή, ο υπολογιστής διαβάζει κείμενο που δεν έχει «δει» ποτέ πριν.
Ακόμα πιο εντυπωσιακά, το zero-shot επιτρέπει παραγωγή ομιλίας χωρίς πρόσθετη εκπαίδευση, όπως όταν οι άνθρωποι διαβάζουν άγνωστο κείμενο σε μια γνώριμη γλώσσα.
Προχωρώντας στο πιο απαιτητικό μέρος, το «neural codec language model» χρειάζεται λίγη επιπλέον ανάλυση.
Οι μηχανές TTS βασίζονται σε codecs για να δημιουργούν ηχητικά κύματα από κείμενο. Ο codec βοηθά το AI να μετατρέπει γράμματα, λέξεις και προτάσεις σε ήχους. Ο νευρωνικός codec λειτουργεί ανάλογα, αλλά χρησιμοποιεί ένα ισχυρό νευρωνικό δίκτυο.
Αυτό φέρνει ένα ακόμη ερώτημα: Τι είναι το νευρωνικό δίκτυο;
Θα το εξηγήσουμε απλά, χωρίς πολλές τεχνικές λεπτομέρειες. Ένα νευρωνικό δίκτυο προσπαθεί να μιμηθεί τον τρόπο που λειτουργεί ο ανθρώπινος εγκέφαλος. Αποτελείται από τεχνητούς νευρώνες, που συνδέονται και οργανώνονται σε επίπεδα.
Αυτή η σύνθετη δομή επιτρέπει το λεγόμενο deep learning, κάνοντας το σύστημα ικανό να αναπτύσσει και να αναγνωρίζει άγνωστα μοτίβα.
Ο νευρωνικός codec τροφοδοτεί το γλωσσικό μοντέλο, το άλλο μέρος της μετατροπής κειμένου σε ομιλία εξίσωσης.
Το γλωσσικό μοντέλο βασίζεται σε δεδομένα για να κατανοεί κάθε εισαγόμενο κείμενο στο πλαίσιο μιας φυσικής γλώσσας. Έτσι, η μηχανή ουσιαστικά «καταλαβαίνει» το κείμενο.
Στην περίπτωση του VALL-E, το LibriLight, η βιβλιοθήκη ήχου της Meta, αποτέλεσε τη βάση του γλωσσικού μοντέλου της AI.
Ακούστε την τεχνολογία TTS αιχμής σε δράση με το Speechify
Αν και το VALL-E δεν διατίθεται ακόμη στο κοινό, μπορείτε να ακούσετε πώς ακούγεται μια σύγχρονη μηχανή μετατροπής κειμένου σε ομιλία μέσω του Speechify. Το Speechify διαβάζει κείμενο από σχεδόν κάθε πηγή.
Είτε του δώσετε γραπτό κείμενο, περιεχόμενο ιστού ή σαρωμένη σελίδα, το Speechify το διαβάζει αμέσως. Διαθέτει φυσικές αφηγήσεις που ακούγονται ανθρώπινες — όχι ρομποτικές, όπως τα συνηθισμένα TTS.
Επιπλέον, μπορείτε να ρυθμίσετε πώς να διαβάζει το Speechify: διαλέξτε γλώσσα, αφηγητή και ταχύτητα και ακούστε το κείμενο όπως σας ταιριάζει.
Αν σας ενδιαφέρει, μπορείτε να δοκιμάσετε το Speechify δωρεάν σήμερα.
Συχνές Ερωτήσεις
Μπορούν να χρησιμοποιήσουν οι άνθρωποι το VALL-E;
Υπάρχουν πολλοί φόβοι για πιθανή κακή χρήση του VALL-E. Η κλοπή ταυτότητας αποτελεί σοβαρό κίνδυνο. Γι' αυτό η Microsoft επέλεξε να μην διαθέσει δημόσια το VALL-E.
Τι είναι το Microsoft AI;
Το Microsoft AI δεν είναι μεμονωμένο προϊόν. Είναι το πλαίσιο ανάπτυξης AI της εταιρείας, που περιλαμβάνει λύσεις επιστήμης δεδομένων, συνομιλιακό AI, ρομποτική, μηχανική μάθηση και συναφείς τεχνολογίες.
Τι είναι διεπαφή με φωνητικές εντολές;
Μια φωνητική διεπαφή είναι ακριβώς αυτό που ακούγεται: αλληλεπίδραση με συσκευές μέσω φωνής. Αυτή η τεχνολογία υπάρχει ήδη σε συσκευές όπως οι Alexa, Siri, Cortana ή Google Assistant.
Τι είναι ρομπότ;
Ο όρος «ρομπότ» δηλώνει κάθε μηχάνημα που λειτουργεί αυτόματα. Σχεδιάζονται για να αντικαθιστούν τον άνθρωπο σε διάφορες εργασίες. Παρόλο που συχνά απεικονίζονται ως ανθρωπόμορφα, τα περισσότερα ρομπότ δεν έχουν τέτοια μορφή, ούτε καν φυσική υπόσταση. Π.χ. οι εικονικοί βοηθοί είναι επίσης ρομπότ.

