Tekst kõneks tehnoloogia on viimastel aastatel kiiresti arenenud. Tehisintellekti areng on võimaldanud tänastel TTS-lahendustel inimkõnet väga veenvalt järele aimata.
Microsofti VALL-E on värskeim lahendus, mis muudab tekst kõneks tehnoloogia hämmastavalt elutruuks. See põhineb null-treeninguga masinõppel ja on närvivõrgupõhine kodeki keelemudel.
Kui eelnev kõlas liigse tehnoloogilise žargonina, ära muretse. Selgitame VALL-E keerukad põhimõtted allpool lihtsalt lahti.
Microsoft VALL-E selgitus
AI-mudelid arenevad meeletu kiirusega. Enamik tunneb OpenAI ChatGPT-d, mis mõjub inimesele väga sarnase tehisintellektina. Paljud on näinud ka DALL-E pildigeneraatori loomingut.
Lisaks startup’idele nagu OpenAI mängivad AI-maastikul suurt rolli ka tehnoloogiahiiglased, näiteks Microsoft.
Microsofti teadlased on hiljuti keskendunud TTS-sünteesi edasiarendamisele. VALL-E ongi selle töö tulemus.
See uus AI võib TTS-maailma täielikult ümber kujundada, sest suudab inimhäält jäljendada juba väga väikese helinäidise järgi. Kolmesekundiline heliklipp piisab, et tabada kõneleja eripärad.
Kui AI on saanud näidise, suudab ta inimese häält ja isegi selle emotsionaalset tooni maha teha. Samuti säilib algse kõneleja akustiline ruum.
Lihtsamalt öeldes paistab VALL-E silma sellega, kui sarnane on tulemus päris kõnelejaga. Kuula näiteid GitHubis, kus Microsoft jagab ka põhjalikumaid selgitusi.
Sellisel tehnoloogial on palju rakendusi, näiteks podcastide ja audioraamatute loomine. VALL-E võimalused avarduvad veelgi koostoimes generatiivsete mudelitega, nagu GPT-3.
Samas võib sellist tehnoloogiat kasutada ka pahatahtlikult.
Kuna VALL-E loob inimesele väga sarnast kõnet, võib sellest saada tööriist pettuste ja ohtlike süvavõltsingute tegemiseks. See sundis Microsofti avaldama eetikapõhimõtted.
Microsoft soovitab avalduses kasutada kõne redigeerimise mudeleid, mis tagavad originaalkõneleja selgesõnalise nõusoleku.
VALL-E võimalike kasutusjuhtude üle jätkub arutelu kindlasti veel kaua. Praegu on aga olulisem küsimus:
Kuidas suudab AI tabada ja jäljendada nii keerulisi mustreid vaid kolme sekundi pikkuse heliga?
Pole ime, et vastus on üsna keeruline.
VALL-E treeniti tuhandete tundide ingliskeelse helimaterjaliga. See võimaldas AI-l inglise keelt loomulikult järele teha. VALL-E pole tüüpiline TTS, vaid tipptasemel masinõppetehnoloogia.
Nimetasime seda tehnoloogiat: nulltreeninguga närvikodeki keelemudel. Vaatame, mida need mõisted tähendavad.
Nulltreeninguga närvikodeki keelemudeli selgitus
Alustame lihtsamast – „nulltreening“ viitab TTS-tehnoloogiale, mis võimaldab luua AI-põhist kõnet varem tundmatust tekstist. See tähendab, et arvuti loeb ette teksti, mida ta pole enne näinud.
Muljetavaldav on see, et nulltreening lubab masinal ilma eelnevate teadmiste või treeninguta ette lugeda, nagu inimene loeb uut teksti oma emakeeles.
Keerulisem osa – „närvikodeki keelemudel“ – vajab täpsemat selgitust.
TTS-mootorid kasutavad audiokodekeid, et luua tekstist helilaineid. Kodek aitab AI-l teksti õigeks häälikuks tõlkida. Närvikodek teeb sama, kuid tugineb närvivõrgule.
See tekitab järgmise küsimuse: Mis on närvivõrk?
Selgitame seda lühidalt. Närvivõrk püüab matkida inimese aju tööd, olles üles ehitatud tehisnärvirakkudest ehk sõlmedest, mis on paigutatud kihtidena.
See keeruline struktuur võimaldab masinal kasutada süvaõpet, mistõttu suudab ta uusi mustreid ära tunda ja neid ise edasi arendada.
Närvikodek toetab keelemudelit, teist olulist osa tekst kõneks protsessis.
Keelemudel kasutab andmestikku, et mõista mistahes teksti keelekontekstis. Nii „mõistabki“ masin teksti sisu.
VALL-E puhul oli keelemudeli alusandmestik LibriLight – Facebooki Meta poolt kokku pandud audiokogu.
Kuula tipptehnoloogilist TTS-i Speechify abil
Kuigi VALL-E pole veel avalik, saad juba praegu kuulda, milline on tipptasemel tekst kõneks mootor Speechify vahendusel. Speechify loeb teksti ette peaaegu igalt allikalt.
Olgu see tekstifail, veebileht või skannitud paber – Speechify loeb selle kohe ette. Veelgi enam, selle jutustushääled kõlavad loomulikult. Erinevalt tavapärastest TTS-idest meenutab Speechify kõne rohkem päris inimhäält.
Lisaks saad valida keele, lugeja ja kiiruse ning kuulata sisu just endale sobival viisil.
Kui see kõik tundub põnev, saad Speechify tasuta proovida juba täna.
KKK
Kas VALL-E-d saab kasutada?
VALL-E võimaliku kuritarvitamise pärast on palju muresid. Eriti ohtlik on identiteedivargus. Seetõttu ei ole Microsoft VALL-E-d avalikkusele kättesaadavaks teinud.
Mis on Microsofti tehisintellekt?
Microsofti AI ei ole üks konkreetne toode, vaid arendusraamistik. See hõlmab andmeteadust, vestlus-AI-d, robootikat, masinõpet ja muid lahendusi.
Mis on hääljuhitav liides?
Hääljuhitav liides tähendab, et saad seadmega suhelda häälkäsklustega. See on tavapärane nutiseadmetes, näiteks Amazon Alexa, Apple Siri, Microsoft Cortana või Google Assistant.
Mis on robot?
„Robot“ tähendab igasugust masinat, mis töötab automaatselt. Need on mõeldud inimese töö asendamiseks või täiendamiseks. Vaatamata filmidest tuttavatele näidetele pole enamik roboteid inimkujulised – mõnel pole isegi füüsilist kuju. Näiteks tänased virtuaalsed assistendid on samuti robotid.

