Mnogi svakodnevno koriste alate za pretvaranje teksta u govor i virtualne asistente, a da ni ne znaju koliko im je sličan način rada. Kako tehnologija napreduje, sve je bolja i kvaliteta aplikacija koje koristimo svaki dan.
Isto vrijedi i za TTS aplikacije i virtualne asistente. Nekoliko tvrtki postiže vrhunske rezultate, a jedna od njih je Google sa svojom WaveNet tehnologijom.
Što je Google WaveNet?
WaveNet je umjetna neuronska mreža osmišljena za generiranje sirovog zvuka. Razvio ju je londonski DeepMind, tvrtka fokusirana na umjetnu inteligenciju. Uvođenje ove tehnologije znatno je unaprijedilo Google Cloud platformu i podignulo sve na višu razinu.
Glavna prednost DeepMinda u odnosu na prijašnje TTS sustave je znatno realističniji zvuk. Kad je predstavljen 2016., TTS sustavi još nisu mogli stvoriti uvjerljiv, prirodan glas.
WaveNet TTS ih je nadmašio u svim aspektima. Ideja je jednostavna: softver može koristiti sirove audio datoteke kao što su WAV kao ulaz te se povezuje s Google API-em i API ključem.
Danas, zahvaljujući naprednim algoritmima, imamo brojne načine za korištenje ove tehnologije. Mnoge se tvrtke diljem svijeta natječu kako bi ponudile najbolji proizvod, što korisnicima donosi više opcija i olakšava odabir programa.
Kako WaveNet radi
WaveNet je vrsta FNN-a, odnosno naprijed usmjerene neuronske mreže, poznata i kao duboka konvolucijska neuronska mreža. CNN prima sirovi signal i može sintetizirati izlaz uzorak po uzorak.
Sve se temelji na strojnom učenju, obradi prirodnog jezika, dubokom učenju i strojnoj inteligenciji. Prijašnje TTS aplikacije stvarale su bazu fonema, a aplikacija je zatim birala najprikladniji zvuk.
Složiti takvu slagalicu nije jednostavno. Softver mora razumjeti jezik, ritam i dinamiku govora, inače bi rezultat zvučao neprirodno.
Kao i većina TTS programa, WaveNet koristi stvarne audio valne oblike - npr. parametrijske ili konkatenativne. Tako softver analizira pravila jezika (zvukova) i njihove promjene kroz vrijeme.
To programu omogućuje generiranje obrazaca koji zvuče kao ljudski govor, prateći stvarne govorne uzorke. Impresivno je što softver stvara izlaz na temelju zadanih informacija.
U praksi to znači: ako govorite talijanski, program vam može generirati govor na talijanskom. To je bila velika prekretnica i otvorila je vrata daljnjem razvoju TTS API-ja.
Primjeri WaveNeta u praksi
Kad je Google predstavio ovaj softver, tražio je previše procesorske snage. Kasnije se to bitno promijenilo. Ovaj API je prvo korišten za glasove Google Assistanta na više platformi.
WaveNet je izvrstan izbor ako tražite TTS softver. Glas zvuči prirodnije pa je iskustvo slušanja ugodnije. Možete ga koristiti za vijesti, podcaste ili bilo koji drugi sadržaj.
A to je tek početak. Ovaj postupak može pomoći osobama s teškoćama govora da ponovno dobiju svoj glas. Sinteza govora omogućuje imitaciju i nudi ogroman potencijal. Osobe s oštećenjem govora mogu iskoristiti uzorak vlastitog glasa, spojiti ga s TTS alatima i ponovno progovoriti.
Još ne znamo što budućnost nosi za TTS, ali očekuju se sjajne inovacije. Prednost je i to što na TTS proizvodima radi velik broj različitih tvrtki.
Kad svi rade prema istom cilju, veća je šansa za iznimne rezultate.
Speechify - Sinteza govora
Među programima koje vrijedi isprobati posebno se ističe Speechify. To je TTS aplikacija dostupna na gotovo svakom uređaju - za iOS, Android, Mac i kao proširenje za Google Chrome.
Speechify može čitati sve vrste sadržaja: PDF-ove, dokumente, e-mailove i sve ostalo na vašem uređaju. Glavna prednost aplikacije je svestranost i prilagodljivost.
Možete prilagoditi brzinu čitanja, birati glasove, mijenjati visinu glasa i još mnogo toga. Osim toga, Speechify nudi OCR funkciju pa možete fotkati knjigu i aplikacija će vam je pročitati naglas.
Aplikacija je posebno prilagođena osobama s disleksijom, ADHD-om, onima koji uče strani jezik ili žele više izvući iz knjiga. To je univerzalna aplikacija koja potpuno mijenja doživljaj čitanja.
Speechify je jednostavan za korištenje, bez potrebe za dugim uputama.
FAQ
Za što se koristi WaveNet?
To je duboka neuronska mreža koja može stvarati sirovi zvuk. Riječ je o TTS sintezi koja nudi realističan WaveNet glas, može se trenirati na stvarnim snimkama govora te je nadmašila Google Cloud TTS.
Danas se koristi za glasove Google Assistanta.
Što je WaveNet model?
Model se temelji na PixelCNN arhitekturi. Za rad s duljim ovisnostima koristi dilatirane kauzalne konvolucije (dilated causal convolutions).
Zahvaljujući dilatiranim CNN-ovima, treniranje je brže i jednostavnije, a model može analizirati i do tisuću slojeva unatrag. Radi i do 20x brže od stvarnog vremena.
Razlika između WaveNeta i konvolucijskih neuronskih mreža?
Softver se temelji na dubokim konvolucijskim neuronskim mrežama (CNN). WaveNet je samo jedna njihova primjena. Sličnu tehnologiju koriste i druge tvrtke (Microsoft, Amazon sa svojim SSML-om), uz vrlo kvalitetne rezultate.
Ako tražite najbolji TTS, odaberite Speechify. Drugi nude neke prednosti, ali Speechify je jednostavan, bez gnjavaže i besplatan te intuitivan za svakog tko želi tekst pretvoriti u govor.

