Tehnologija pretvaranja teksta u govor napreduje velikim koracima, osobito posljednjih godina. Zahvaljujući poboljšanjima umjetne inteligencije, današnji TTS pruža visokokvalitetne izgovore nalik ljudskom govoru.
Microsoftov VALL-E je najnovije tehnološko rješenje koje može učiniti pretvaranje teksta u govor zapanjujuće realističnim. Temelji se na neuronskom codec jeziku i zero-shot učenju.
Ako vam prethodna rečenica zvuči kao znanstvena fantastika, ne brinite. U nastavku detaljno objašnjavamo složene koncepte iza VALL-E.
Objašnjenje Microsoft VALL-E
AI modeli brzo dobivaju na snazi. Svi znaju za OpenAI-jev ChatGPT, koji najviše nalikuje ljudskoj inteligenciji. Vjerojatno ste vidjeli i AI-generiranu umjetnost iz DALL-E sustava.
Osim startupa poput OpenAI-a, velike tvrtke poput Microsofta također su važni akteri u AI području.
Microsoftovi istraživači nedavno intenzivno rade na napretku u sintezi govora. VALL-E je rezultat tog istraživanja.
Ovaj AI može potpuno promijeniti TTS jer proizvodi govor nalik čovjeku na temelju kratkog audio uzorka. Samo tri sekunde zvuka dovoljno su da VALL-E prepozna specifične govorne obrasce.
Nakon uzorka govora, AI može oponašati ljudski glas i prenijeti emotivni ton. Impresivno je što VALL-E reproducira i akustičnu okolinu nepoznatog govornika.
VALL-E briljira u sličnosti s izvornim govornikom. Primjere možete poslušati na GitHubu, gdje je Microsoft objavio snimke i pojašnjenje AI-a.
Ova tehnologija ima brojne potencijalne primjene, poput kreiranja podcasta i audioknjiga. Potencijal dodatno raste kad se VALL-E spoji s generativnim modelima kao što je GPT-3.
No, tehnologija poput VALL-E može se koristiti i u zlonamjerne svrhe.
Budući da VALL-E može zvučati gotovo identično stvarnim osobama, lako je zamisliti zlouporabu za prevare ili štetne deepfakeove. Zbog takvih mogućnosti Microsoft je objavio etičku izjavu.
U toj izjavi tvrtka zagovara posebne modele za uređivanje govora koji osiguravaju pristanak izvornog govornika.
Kontroverze oko potencijalnih primjena VALL-E tek će se rasplamsati. Trenutačno je zanimljivije pitanje:
Kako AI replicira složene uzorke koristeći samo trosekundni audio uzorak?
Očekivano, odgovor je prilično složen.
VALL-E je istreniran na tisućama sati engleskog govora. To mu omogućuje vjernu simulaciju govora na engleskom. No, VALL-E nije tipični TTS – koristi najnoviju tehnologiju strojnog učenja.
Već smo spomenuli naziv tehnologije: zero-shot neuronski codec jezični model. Pogledajmo što to znači u praksi.
Razumijevanje zero-shot neuronskih codec modela
Pojam “zero-shot” označava poseban TTS princip: AI generira govor na temelju nepoznatih podataka. Računalo može čitati tekst koji dosad “nije” vidjelo.
Još bolje, zero-shot omogućuje čitanje bez dodatnog treniranja. To je slično kao kad čovjek pročita novi tekst na jeziku koji već poznaje.
Zatim, “neuronski codec jezični model” zahtijeva dodatno pojašnjenje.
TTS pokreću audio codeci koji iz teksta stvaraju valne oblike. Codec AI-u pomaže pretvoriti slova i rečenice u odgovarajuće zvukove. Neuronski codec koristi neuronsku mrežu za isti zadatak.
To postavlja novo pitanje: Što je neuronska mreža?
Ukratko, neuronska mreža oponaša način rada mozga. Sastoji se od umjetnih neurona – čvorova koji su povezani u slojeve.
Ta složena struktura omogućuje tzv. duboko učenje, što stroju olakšava prepoznavanje i prilagodbu novim uzorcima.
Neuronski codec pokreće jezični model, drugi dio ove pretvorbe teksta u govor jednadžbe.
Jezični model koristi skup podataka za razumijevanje svakog teksta u kontekstu jezika. Tako stroj “shvaća” tekst.
Za VALL-E temelj je podatkovna baza LibriLight, audio zbirka koju je sastavila Meta s Facebooka.
Slušajte najmoderniji TTS na djelu sa Speechifyjem
Iako VALL-E još nije javno dostupan, možete čuti kako zvuči napredni TTS sa Speechifyjem. Speechify čita naglas tekst iz gotovo bilo kojeg izvora.
Bilo da unesete tekst, web-sadržaj ili skeniranu stranicu, Speechify sve trenutno pročita. Uz to, glasovi su prirodni, za razliku od robotskog tona tipičnih TTS-ova, pa Speechify zvuči poput stvarne osobe.
Možete prilagoditi način čitanja. Birajte jezik, govornika, brzinu čitanja i slušajte tekst baš onako kako vam odgovara.
Ako vam se ovo čini zanimljivo, možete isprobati Speechify besplatno već danas.
ČPP
Mogu li ljudi koristiti VALL-E?
Postoji mnogo zabrinutosti oko moguće zlouporabe VALL-E. Krađa identiteta posebno je zabrinjavajuća. Zato Microsoft još nije omogućio javni pristup.
Što je Microsoftova AI?
Microsoft AI nije određeni proizvod nego okvir za razvoj AI rješenja. Uključuje data science alate, konverzacijsku AI, robotiku, strojno učenje i druge inovacije.
Što je sučelje vođeno glasom?
Sučelje vođeno glasom upravo je to – sučelje koje koristite glasovnim naredbama. Već je sastavni dio pametnih uređaja, poput Alexe, Siri, Cortane ili Google Assistanta.
Što je robot?
Izraz “robot” odnosi se na svaki uređaj koji djeluje automatski, kao zamjena za ljudski rad. Iako su u medijima često prikazani humanoidno, većina robota nema ljudski oblik – neki nemaju ni fizičku formu. Primjerice, današnji asistenti poput Alexe ili Google Assistanta također su roboti.

