Daugelis žmonių kasdien naudoja teksto į kalbą paslaugas ir virtualius asistentus. Tačiau jie galbūt nežino, kad abi paslaugos turi daug bendrų bruožų. Tobulėjant technologijoms, gerėja ir mūsų kasdien naudojamų programėlių veikimas.
Tas pats galioja TTS programėlėms ir VA. Yra keletas įmonių, pasiekusių puikių rezultatų šioje srityje, viena iš jų – Google su savo WaveNet technologija.
Kas yra Google WaveNet?
WaveNet – dirbtinis neuroninis tinklas, skirtas žaliam garsui generuoti. Šią technologiją sukūrė Londone veikianti dirbtinio intelekto bendrovė DeepMind. Jos atsiradimas smarkiai pakeitė Google Cloud platformą ir pakėlė viską į aukštesnį lygį.
Pagrindinis privalumas, kurį Google DeepMind pasiūlė, lyginant su ankstesnėmis teksto į kalbą sistemomis, – natūralus skambesys. Kai 2016 metais ši technologija buvo pristatyta, TTS sistemos dar negalėjo sukurti natūraliai skambančio balso.
WaveNet teksto į kalbą visapusiškai aplenkė ankstesnes sistemas. Technologijos idėja paprasta – programinė įranga gali naudoti žalius garso failus, pvz., WAV, ir integruotis su Google API bei API raktu.
Šiandien turime daugybę šios technologijos panaudojimo sričių, nes gebame pasitelkti sudėtingus algoritmus. Įmonės visame pasaulyje varžosi dėl geriausio produkto. Tai naudinga galutiniams vartotojams – daugiau pasirinkimų programai, atliepiančiai jų poreikius.
Kaip veikia WaveNet
WaveNet – tai FNN arba tiesinis neuroninis tinklas, dar žinomas kaip gilusis konvoliucinis neuroninis tinklas. CNN ima žalią signalą ir gali sintetinti rezultatą po vieną mėginį.
Viskas paremta mašininio mokymosi, natūralios kalbos apdorojimo, giluminio mokymosi ir mašininio intelekto principais. Anksčiau teksto į kalbą programos kūrė fonemų bazę, o programa parinkdavo tinkamiausią arba artimiausią garsą.
Tačiau sudėlioti tokį „puzzle“ nėra paprasta. Programai reikia suprasti kalbos taisykles, ritmą ir dinamiką, kitaip garsai skambėtų nenatūraliai.
Kaip ir dauguma teksto į kalbą programų, WaveNet naudoja tikras garso bangas – pavyzdžiui, parametrinio ar jungtinio tipo. Taip galima analizuoti kalbos (garsų) dėsningumus ir jų kaitą laikui bėgant.
Programa taip gali generuoti modelius, kurie, remiantis gautais pavyzdžiais, skamba kaip žmogaus kalba. Įspūdinga tai, kad rezultatas sukuriamas pagal įkeltą informaciją.
Kaip tai atrodo praktikoje: jei kalbate itališkai, programa padės generuoti itališką kalbą. Tai tuo metu buvo didelė naujovė ir atvėrė kelią kitoms teksto į kalbą API.
WaveNet pavyzdžiai
Kai Google pristatė programą, tam reikėjo pernelyg daug skaičiavimo resursų. Tačiau po kelerių metų viskas pasikeitė. Ši API pirmiausia panaudota Google Assistant balsams skirtingose platformose.
WaveNet – puikus įrankis, jei ieškote TTS programos. Balsas skamba daug natūraliau, todėl naudotis ja maloniau. Galima klausytis naujienų, podcastų transkriptų ar bet kokio kito turinio.
Ir tai tik pradžia. Šis procesas gali padėti žmonėms, turintiems kalbos sutrikimų, vėl prabilti. Balsų sintezė leidžia imituoti balsą ir turi didžiulį potencialą. Pvz., žmonės su kalbos negalia teoriškai gali panaudoti savo balso įrašą ir susieti jį su teksto į kalbą funkcijomis, taip susigrąžindami savo balsą.
Kol kas nežinome, ką ateityje pasiūlys TTS programos, bet drąsiai galime tikėtis gerų dalykų. Vienas smagiausių aspektų – daugybė įmonių kuria TTS produktus.
Kai visi siekia to paties tikslo, tikėtina, kad išvysime įspūdingų rezultatų.
Speechify – kalbos sintezė
Viena iš programų, kurias verta išbandyti kuo greičiau, – Speechify. Tai teksto į kalbą programa, kuri veikia beveik visuose įrenginiuose. Ji prieinama iOS, Android, Mac ir net kaip Google Chrome plėtinys.
Speechify perskaito bet kokį turinį – PDF, dokumentus, el. paštą ar bet ką, kas yra jūsų įrenginyje. Svarbiausias programos privalumas – universalumas ir konfigūruojamumas.
Galite keisti skaitymo greitį, rinktis balsą, reguliuoti toną ir pan. Verta paminėti, kad Speechify palaiko OCR funkciją – galite nufotografuoti knygą, o programa ją perskaitys jums.
Programa kurta specialiai žmonėms su disleksija, ADD, naujų kalbų besimokantiems ar visiems, kurie nori skaityti produktyviau. Tai universali programa, keičianti požiūrį į skaitymą.
Speechify paprasta naudoti – nereikia jokio ilgo mokymo.
DUK
Kam naudojama WaveNet?
Tai gilus neuroninis tinklas, galintis kurti žalią garsą. Tai teksto į kalbą sintezė, kuri siūlo natūraliai skambančius WaveNet balsus ir gali būti apmokyta tikrais įrašais. Dėl to ji pranoko ankstesnę Google Cloud TTS.
Šiandien programinė įranga naudojama Google Assistant balsams.
Kas yra WaveNet modelis?
Modelis paremtas PixelCNN architektūra. Norint apdoroti ilgalaikius ryšius žaliam rezultatui, naudojamos išsklaidytos priežastinės konvoliucijos.
Papildytos išsklaidytos CNN supaprastina ir paspartina mokymą, leidžia pereiti per tūkstantį sluoksnių laike ir veikia 20 kartų greičiau nei realiuoju laiku.
Kuo WaveNet skiriasi nuo konvoliucinių neuroninių tinklų?
Ši programinė įranga paremta giliu konvoliuciniu neuroniniu tinklu arba CNN. Vadinasi, WaveNet yra viena CNN taikymo formų. Panašią technologiją naudoja Microsoft ar Amazon (ir SSML), ir ji užtikrina aukštą kokybę bei puikius rezultatus.
Ieškant geriausios teksto į kalbą programos – rinkitės Speechify. Nors kitos platformos turi savų privalumų, Speechify paprasta, be vargo naudotis ir ji intuityvi bet kuriam vartotojui, norinčiam paversti tekstą garsu.

