Paljud kasutavad tekst kõneks teenuseid igapäevaselt, samuti virtuaalseid assistente. Ent vähesed teavad, et neil kahel on palju ühiseid tööpõhimõtteid. Tehnoloogia arenedes muutuvad nutikamaks ka meie igapäevased rakendused.
Sama kehtib TTS-rakenduste ja virtuaalassistentide kohta. On mõned firmad, kes paistavad silma – üks neist on Google oma WaveNet tehnoloogiaga.
Mis on Google WaveNet?
WaveNet on tehisnärvivõrk, mis loob toorheli. Selle taga on Londoni firma DeepMind, mis keskendub tehisintellektile. WaveNeti kasutuselevõtt tõi Google Cloud platvormile olulise muutuse ja viis kõik uuele tasemele.
Üks peamisi eeliseid võrreldes varasemate tekst kõneks süsteemidega on parem kõlakvaliteet. Kui see 2016. aastal välja tuli, TTS süsteemid ei suutnud veel loomulikku häält tekitada.
WaveNet tekst-kõneks lahendus ületas neid igas mõttes. Tehnoloogia idee on lihtne – tarkvara kasutab sisendina toorhelifaile nagu WAV ja ühendub Google API ja API võtmega.
Tänapäeval on meil palju võimalusi selle tehnoloogia kasutamiseks, sest suudame juhtida keerukaid algoritme. Firmad võistlevad, et pakkuda parimat toodet, mis annab kasutajale rohkem valikuid sobiva programmi leidmiseks.
Kuidas WaveNet toimib
WaveNet on FNN ehk ettepoole suunatud närvivõrgu tüüp, tuntud ka kui sügav konvolutsiooniline närvivõrk. CNN võtab sisendina toorsignaali ja sünteesib väljundi punkt-punktilt.
Kõige aluseks on masinõpe, loomuliku keele töötlemine, süvaõpe ja masinate intelligentsus. Varem loodi andmebaas foneemidest, millest rakendus valis sobiva või lähima variandi.
See pusle pole lihtne – tarkvara peab mõistma keele reegleid, rütmi ja dünaamikat. Vastasel juhul kõlaks tulemus ebaloomulikult.
Nagu enamik TTS programme, kasutab ka WaveNet päris helilaineid – näiteks parametrilist või ühendatud kõnet. Nii analüüsib tarkvara keele (või helide) reegleid ja muutusi ajas.
See võimaldab programmil luua mustreid, mis kõlavad nagu inimese kõne, kasutades kõnenäidiseid. Tippkvaliteedini jõutakse, kui väljund põhineb sisendiks antud infol.
Päriselus tähendab see, et kui räägid näiteks itaalia keelt, saab tarkvara aidata sul selle keele kõnet luua. See oli omal ajal suur läbimurre ja sillutas teed teistele TTS APIdele.
Näiteid WaveNeti kasutusest
Kui Google tarkvara esimest korda esitles, nõudis see liiga palju arvutusvõimsust. Hiljem muutus kõik. API hakkas esimesena toetama Google Assistenti hääli eri platvormidel.
WaveNet on ka hea tööriist, kui vajad TTS-tarkvara. Hääl kõlab loomutruult ja kasutuskogemus on palju meeldivam. Nii saab kuulata uudiseid, podcaste või mida iganes soovid.
See on alles algus. Protsess aitab ka kõnehäiretega inimestel häält tagasi saada. Kõnesüntees võimaldab hääle matkimist. Näiteks saab kõnehäirega inimene oma häälenäidist kasutada TTS tööriistaga ja nii oma hääle taasluua.
Tuleviku TTS programmide võimalusi me veel ei tea, kuid tulemus saab kindlasti olema põnev. Erinevad firmad arendavad TTS tooteid, mis teeb valiku üha mitmekesisemaks.
Kui kõik töötavad ühise eesmärgi nimel, jõuame paremate tulemusteni.
Speechify – kõnesüntees
Üks programmidest, mida tasub proovida, on Speechify. See on tekst kõneks rakendus, mida saab kasutada peaaegu igas seadmes: iOS, Android, Mac ja ka Google Chrome lisana.
Speechify loeb ette igasugust sisu: PDFe, dokumente, e-kirju ja palju muud. Rakenduse suurimad plussid on paindlikkus ja kohandatavus.
Saad muuta lugemiskiirust, valida eri hääli, seadistada tonaalsust jne. Speechify'l on ka OCR funktsioon, nii saad pildistada raamatu ja lasta rakendusel selle ette lugeda.
Rakendus on loodud spetsiaalselt düsleksiaga ja ATH-ga inimestele, keeleõppuritele või neile, kes tahavad raamatuid produktiivselt kuulata. Tegemist on kõik-ühes rakendusega, mis muudab lugemiskogemust.
Speechify't on lihtne kasutada ega nõua pikka juhendit.
KKK
Milleks kasutatakse WaveNeti?
See on sügav närvivõrk, mis suudab luua toorheli. Tegemist on tekst kõneks sünteesi lahendusega, mis pakub loomuliku kõlaga WaveNeti hääli ja mida saab treenida päris kõnesalvestustega. Nii suutis see edestada Google Cloud TTSi.
Tänapäeval kasutatakse tarkvara Google Assistenti häälte loomiseks.
Mis on WaveNeti mudel?
Mudel põhineb PixelCNN arhitektuuril. Toorväljundi loomiseks vajalike pikaajaliste sõltuvustega tullakse toime tänu dilateeritud kausaalkonvolutsioonidele.
Dilateeritud CNN-id võimaldavad lihtsamat ja kiiremat treenimist, liikudes tuhat kihti ajas tagasi. Need töötavad ka kuni 20x kiiremini kui reaalajas.
Mis vahe on WaveNetil ja konvolutsioonvõrgul?
Tarkvara põhineb sügaval konvolutsioonilisel närvivõrgul ehk CNN-il. WaveNet on üks CNN-i rakendus. Sarnast tehnoloogiat kasutavad Microsoft ja Amazon (koos SSML-iga), pakkudes kvaliteetset tulemust.
Kui otsite parimat TTS rakendust, proovige Speechify’d. Teised platvormid pakuvad küll oma eeliseid, kuid Speechify on lihtne, tasuta ja arusaadav vahend teksti kõneks muutmiseks.

