Tekst kõneks (TTS) ja kõnesünteesi mootorid kasutavad erinevaid AI mudeleid, mis aitavad luua inimkõlalisemat kõnet. Üks neist on autoregressiivne häälemudel — generatiivne mudel, mida kasutatakse hääle loomisel. Käesolevas artiklis vaatleme, kuidas autoregressiivne mudel töötab ja kuidas seda kasutatakse kõnesünteesis.
Autoregressiivne mudel lahti seletatult
Autoregressiivne mudel on statistiline mudel, mida kasutatakse sageli signaalitöötluses, kõnetuvastuses ja kõnesünteesis. See on oluline osa kaasaegsest TTS-tehnoloogiast. Selgituseks: kujutle ilmaennustajat, kes ennustab homse ilma eelmise päeva põhjal ("autoregressiivne" osa). See võtab arvesse temperatuuri, niiskust, tuult ja muid tegureid, lisaks kalendriaega, asukohta jm ("mudeli" osa). Kõik see aitab masinal homset ilma ennustada. Täpsus pole alati 100% – kuid mida rohkem andmeid, seda kindlam tulemus. See ongi autoregressiivne mudel: see prognoosib järgmise väärtuse ajaseerias eelmiste põhjal, kasutades eelnevate punktide lineaarset kombinatsiooni (kordajad). Selline ennustamisvõime sobib hästi kõnetehnoloogiasse, kus loomulik kõne nõuab järgmise helinäidise ennustamist eelnevate põhjal. Autoregressiivsel mudelil on kaks peamist osa: kodeerija ja dekodeerija. Kodeerija võtab sisendi (nt spektrogramm või foneemide jada) ja teisendab selle latentseks esituseks. Dekodeerija loob sellest väljundi (nt lainekuju või spektrogramm). Tuntuim autoregressiivne mudel on WaveNet, mis kasutab hajutatud põhjuslikku konvolutsiooni. See on Gaussi mudel, mis suudab luua väga kvaliteetse heli, mis kõlab pea nagu inimene. Oluline omadus on ka see, et mudel suudab generatsiooniprotsessi erinevate sisendite kaudu tingimustada – nt mitme kõnelejaga andmestikuga saab luua TTS-i, mis jäljendab eri hääli. Seda tehakse, kui dekodeerijat treenitakse koos kõneleja identiteediga. Autoregressiivseid mudeleid saab treenida eri optimeerimisalgoritmidega (nt variatsioonilised autoenkoodrid, korduvad närvivõrgud/RNNid). Treeningandmed peavad olema kõrge kvaliteediga, et sünteesitud kõne oleks loomulik ja täpne.
Autoregressiivse mudeli rakendamine kõnesünteesis
Kõnesüntees on protsess, mille käigus masin loob inimlaadset kõnet. Üks levinumaid lahendusi siin on autoregressiivne mudel. Sellise lähenemise korral analüüsib mudel ja ennustab kõne akustilisi omadusi (toon, kestus, valjus) kodeerija ja dekodeerija abil. Kodeerija töötleb sõnalisi laineid või spektrogramme kõrgetasemelisteks tunnusteks, mis sisestatakse dekodeerijasse. See loob järjestikuse akustiliste elementide jada, mis väljendab soovitud kõnet. Mudeli autoregressiivsus võimaldab iga järgmise omaduse ennustamist eelmise põhjal, mistõttu kõne kõlab loomulikult. Tuntuim autoregressiivne mudel on WaveNet, mis kasutab konvolutsioonilisi närvivõrke (CNN), et luua kõne tunnuseid, mida vokooder teisendab kuuldavaks kõneks. Mudelit treenitakse kõrgekvaliteediliste kõnenäidiste põhjal, õppimaks erinevate omaduste mustreid. Eeltreenitud mudelid, tihti kasutades LSTM-võrke, kiirendavad treeningut ja parandavad kvaliteeti. Kõnesünteesi kiiruse ja reaalajas kasutatavuse tõstmiseks on tehtud ka WaveNeti muudatusi, nagu FastSpeech, mis on automaatne sünteesimudel ja vähendab viivitusi tänu tähelepanumehhanismile, mis otse prognoosib iga foneemi pikkust ja tooni. Veel üks uurimissuund on hääle teisendamine – masin õpib teisendama ühe inimese kõnet teise inimese hääleks, säilitades sisu ja prosoodia. Selleks treenitakse mudelit nii allika kui sihtkõneleja näidiste põhjal. Autoregressiivsete TTS-mudelite keskne osa on närgivokooder, mis loob kvaliteetse kõne lainekuju. Ilma selleta kõlaks masinhääl ebainimlik. Uuringud autoregressiivsete mudelite kohta on viidanud üle 2,3 miljardi korra, tõestades nende tähtsust. Neid esitletakse ICASSPil ja avaldatakse arxiv.orgis ja GitHubis, olles paljude artiklite fookuses. Tulemust mõõdetakse: keskmise hinnangu (MOS), sõnavea (WER) ja spektraalhälbe (SD) järgi.
Tee AI-tekstist kõne parimal moel Speechifyga
Speechify on TTS-teenus, mis kasutab tehisintellekti, et toota väga loomulikku jutustust igasugustele tekstidele. Teenus muudab teksti kõneks süvaõppemudeli abil, mis on treenitud suurel kõneandmestikul. Kasutamiseks kopeerige või laadige fail platvormile ning valige sobiv hääl ja keel. Speechify loob kvaliteetse audioklipi, mida saate alla laadida või jagada. Speechify kasutab autoregressiivset mudelit, mis annab kõnele loomuliku voolavuse. Speechify abil saab luua kvaliteetset heli reaalajas ja rakendada seda erinevates valdkondades, näiteks podcastides, videotes ja audioraamatutes. Miks oodata? Proovige Speechify juba täna ja avastage tipptasemel audio loomise võimalused oma projektidele.
KKK
Mis on autoregressiivne aegridade mudel?
Autoregressiivne aegridade mudel on statistiline mudel, mis ennustab tulevasi väärtusi varasemate põhjal.
Mis vahe on AR- ja ARMA-mudelil?
ARMA on üldisem mudel, mis ühendab autoregressiivse ja libiseva keskmise komponendi, samas kui AR on lihtsam ega sisalda libiseva keskmise osa.
Mis vahe on aegridadel ja süvaõppel?
Aegridade analüüs on statistiline meetod ajapõhiste andmete uurimiseks. Süvaõpe on masinõppe haru, mis kasutab närvivõrke andmetest õppimiseks.
Mis vahe on autoregressiivsel ja mitte-autoregressiivsel mudelil?
Autoregressiivsed mudelid loovad tulemusi järjestikku, tuginedes eelnevatele; mitte-autoregressiivsed genereerivad kõik väljundid paralleelselt.

