Pretvorba besedila v govor (TTS) in sistemi za sintezo govora uporabljajo različne modele strojnega učenja za ustvarjanje govora, ki zveni čim bolj naravno. Eden takih je avtoregresijski glasovni model, generativni model za ustvarjanje govora. V tem članku pojasnimo, kako deluje ta model in kakšno vlogo ima pri govorni sintezi.
Razlaga avtoregresijskega modela
Avtoregresijski model je statistični model, pogosto uporabljen pri obdelavi signalov ter pri prepoznavanju in sintezi govora. Je ključni gradnik sodobne govorilne tehnologije, zlasti v TTS-sistemih. Za lažjo predstavo si ga lahko zamislimo kot stroj za napovedovanje vremena, ki pri izračunu upošteva podatke prejšnjega dne (»avtoregresijski« del). Pregleda temperaturo, vlago in veter ter na tej osnovi napove vreme za naslednji dan. Upošteva tudi druge dejavnike, kot so letni čas, lokacija in vremenski vzorci (»model« del). Z več podatki se napovedi sčasoma izboljšujejo. Osnovna ideja avtoregresijskega modela je preprosta: napove naslednjo vrednost v časovni vrsti na podlagi prejšnjih vrednosti. Uporablja linearno kombinacijo preteklih podatkov za napoved naslednje vrednosti v zaporedju. Ta prediktivnost je idealna za govorilno tehnologijo, saj pri generiranju naravnega govora napoveduje naslednji zvočni vzorec glede na prejšnje. Avtoregresijski model ima dve glavni komponenti: koder in dekoder. Koder prejme vhodni signal (npr. spektrogram ali fonemsko zaporedje) in ga pretvori v latentno predstavitev. Dekoder iz te predstavitve generira izhodni signal (valovno obliko ali spektrogram). Znani primer je WaveNet, ki z dilatiranimi kavzalnimi konvolucijami modelira signal in ustvari zvok, skoraj nerazločen od človeškega govora. Ključna lastnost je tudi možnost pogojnega generiranja: z različnimi vhodnimi podatki lahko model naučimo govoriti z različnimi glasovi, npr. ga učimo na več govorcih in dekoderju dodamo informacijo o identiteti govorca. Avtoregresijske modele treniramo z različnimi postopki, kot so variacijski avtomatski kodirniki ali rekurentne nevronske mreže (RNN). Za uspešno generiranje naravnega govora so nujno potrebni kakovostni podatki za učenje.
Uporaba avtoregresijskega modela pri sintezi govora
Sinteza govora je postopek, pri katerem stroj ustvari govor, ki zveni čim bolj naravno. Ena najpogosteje uporabljenih metod temelji na avtoregresijskem modelu. V tem primeru sistem analizira in napoveduje akustične značilnosti govora, kot so višina tona, trajanje in glasnost, s pomočjo kodirnika in dekodirnika. Kodirnik surove zvočne podatke (npr. spektrogram) pretvori v nabor visokonivojskih značilnosti, ki jih dekoder uporabi za generiranje zaporedja akustičnih elementov želenega govora. Avtoregresijska narava modela mu omogoča, da vsako naslednjo akustično značilnost napove na podlagi prejšnjih, kar poskrbi za naravnejši rezultat. Med najbolj znanimi avtoregresijskimi modeli za sintezo govora je WaveNet, ki uporablja konvolucijske nevronske mreže (CNN) in vocoder za pretvorbo značilnosti v govor. Model treniramo na kakovostnih govornih vzorcih, da se nauči vzorcev in odnosov med akustičnimi značilnostmi. Za hitrejše učenje in večjo učinkovitost se uporabljajo tudi modeli, zasnovani na LSTM-mrežah. Za še boljši in bolj realističen sintetiziran govor so bile predlagane izboljšave, kot je FastSpeech, ki zmanjšuje zakasnitev in pospeši sintezo govora z uporabo pozornostnega mehanizma za neposredno napoved trajanja in višine vsakega fonema. Dodatno raziskovalno področje je pretvorba glasu, kjer želimo govor enega govorca spremeniti tako, da zveni kot drugi govorec. To dosežemo s treningom na vzorcih obeh govorcev, tako da model ohrani vsebinsko-lingvistične značilnosti izvornega govora. Ključna komponenta avtoregresijskih modelov je nevronski vocoder, ki ustvari kakovostne valovne oblike govora – brez njega bi govor zvenel umetno. Raziskave na tem področju so zelo pomembne in so predstavljene na vodilnih konferencah, kot je ICASSP, številni prispevki pa so objavljeni tudi na arxiv.org in GitHubu, kjer raziskujejo algoritme, arhitekture in postopke optimizacije. Uspešnost avtoregresijskih modelov ocenjujemo s kazalniki, kot so povprečna ocena (MOS), število napak (WER) in spektralna distorzija (SD).
Postanite napreden uporabnik TTS s Speechify
Speechify je TTS-storitev, ki z umetno inteligenco ustvarja odlične, naravne pripovedi za vse vrste besedil. Storitev besedilo pretvori v govor s pomočjo globokega učenja na velikem številu zvočnih vzorcev. Speechify uporabite tako, da prilepite ali naložite datoteko, izberete glas in jezik, nato pa sistem ustvari kakovosten zvočni posnetek za prenos ali deljenje. Pri generiranju uporablja avtoregresijski model, kar zagotavlja naraven tok govora. Z Speechify lahko v realnem času ustvarite vrhunski zvok in ga uporabite za podcaste, videe in avdioknjige. Zakaj bi odlašali? Preizkusite Speechify in odkrijte nov način ustvarjanja vrhunskega zvoka za svoje projekte.
Pogosta vprašanja
Kaj je avtoregresijski model časovnih vrst?
Avtoregresijski model časovnih vrst je statistični model, ki napoveduje prihodnje vrednosti na podlagi preteklih.
Kakšna je razlika med AR in ARMA?
ARMA je splošnejši model z avtoregresijskimi komponentami in drsečimi povprečji, medtem ko je AR preprostejši model brez drsečih povprečij.
Kakšna je razlika med časovnimi vrstami in globokim učenjem?
Analiza časovnih vrst je statistična tehnika za obdelavo časovno odvisnih podatkov, globoko učenje pa je veja strojnega učenja, ki uporablja umetne nevronske mreže.
Kakšna je razlika med avtoregresijskimi in nearvoregresijskimi modeli?
Avtoregresijski modeli generirajo izhode zaporedno, vsak naslednji na podlagi predhodnih, medtem ko nearvoregresijski izhode ustvarijo vzporedno, brez sklicevanja na prejšnje.

