Tekstist kõneks: lühike ajalugu

Kõnesüntees ehk inimese hääle kunstlik loomine on viimase 70 aasta jooksul teinud suure hüppe. Kui kasutad tekstist kõneks teenuseid raamatute kuulamiseks, õppimiseks või oma tekstide ettelugemiseks, pole kahtlust, et need lahendused on paljude elu oluliselt lihtsustanud.

Siin vaatame, kuidas tekstist kõneks töötab ja kuidas abistav tehnoloogia on ajas muutunud.

Sissejuhatus

1700ndatel lõi vene professor Christian Kratzenstein akustilisi resonaatoreid inimhääle jäljendamiseks. Paarkümmend aastat hiljem tõi VODER (Voice Operating Demonstrator) New Yorgi maailmamessil palju tähelepanu, kui Homer Dudley näitas, kuidas õppevahendiga saab kõnet tehislikult luua. Seadet oli keeruline kasutada – Duddleyl tuli põhitooni juhtida jalapedaaliga.

1800ndate algul töötas Charles Wheatstone välja esimese mehhaanilise kõnesünteesi seadme, mis pani aluse kiirele arengule kõnesüntehnoloogias.

Hea tekstist kõneks programmi täpset definitsiooni on raske anda, aga nagu paljude asjade puhul, saad kvaliteedist aru, kui seda kuuled. Heal tekstist kõneks lahendusel on loomulikud hääled, kus kuuldub päris inimeste intonatsioon ja toon.

Tekstist kõneks aitab nägemispuudega ja muude erivajadustega inimestel saada vajalikku infot tööks ja suhtlemiseks. Programmid võimaldavad õppuritel ja töötajatel kuulata tekste mugavalt liikvel olles. Sünteetiline kõne aitab palju rohkem ära teha lühema ajaga ning on kasulik paljudes valdkondades, näiteks arvutimängudes või kui esineb kõneprotsessi eripärasid.

1950ndad ja 60ndad

1950ndate lõpus loodi esimesed arvutipõhised kõnesünteesiseadmed. 1961. aastal kasutas füüsik John Larry Kelly Jr. Bell Labsist IBMi arvutit, et sünteesida kõnet. Tema vookõnesalvestiga taasesitati laulu „Daisy Bell“.

Sel ajal kasutas Arthur C. Clarke (romaani „2001: Kosmoseodüsseia” autor) Kelly demonstratsiooni oma raamatu stsenaariumis – seal laulab arvuti HAL 9000 „Daisy Bell“.

1966. aastal tuli kasutusele lineaarne prognooskoodimine, mille töötasid välja Fumitada Itakura ja Shuzo Saito ning kuhu panustasid ka Bishnu S. Atal ja Manfred R. Schroeder.

1970ndad

1975 töötas Itakura välja kõnesignaalide spektraalse lahutuskoodi. See tihendusmeetod aitas kõne analüüsi ja sünteesi arendada, nõrkusi tuvastada ja parandada.

Samal aastal tuli välja MUSA – iseseisev kõnesüntees, mis kasutas algoritmi, et lugeda itaalia keelt valjult. Kolm aastat hiljem ilmus versioon, mis oskas juba itaalia keeles laulda.

70ndatel valmis esimene artikulatoorne sünteetiline kõneaparaat, mille aluseks oli inimese hääletrakt. Tom Baer, Paul Mermelstein ja Philip Rubin töötasid Haskinsi laboris ning kasutasid Bell Labsi 60ndate ja 70ndate vokaaltrakti mudeleid.

1976 loodi Kurzweili lugemismasinad pimedatele. Need olid kallid, kuid raamatukogud pakkusid neid nägemispuudega kasutajatele raamatute kuulamiseks.

Lineaarne prognooskoodist sai sünteetiliste kõnekiipide alus. Texas Instrumentsi LPC-kiibid ja Speak & Spell mänguasjad kasutasid seda tehnoloogiat. Need mänguasjad eristusid toonase tavapärase robothääle kõrval täpsema intonatsiooni poolest. Populaarsed olid ka taskuarvutid kõnesünteesi võimalusega. 1979. aastal tuli Fidelity Voice Chess Challenger – malearvuti, mis suutis kõnet sünteesida.

1980ndad

80ndatel jõudis kõnesüntees videomängudesse. 1980 tuli välja Sun Electronicsi tulistamismäng Stratovox. Manbiki Shoujo oli esimene personaalarvutimäng, mis suutis kõnet sünteesida. Elektrimäng Milton oli The Milton Bradley Company esimene mäng, mis suutis inimese häält sünteesida.

1983. aastal tuli iseseisev akustilis-mehaaniline kõnemasin DECtalk. DECtalk mõistis foneetilisi sõnavärke, võimaldades kohandatud hääldust ja ka toonimärke. Tänu sellele oskas DECtalk ka laulda.

80ndate lõpus lõi Steve Jobs NeXT-süsteemi, mille arendas Trillium Sound Research. Kuigi NeXT ei osutunud edukaks, ühendas Jobs selle lõpuks 90ndatel Apple’iga.

1990ndad

Varased tekstist kõneks süsteemid kõlasid robotlikult, kuid see muutus 80ndate lõpus ja 90ndate alguses. Pehmemad kaashäälikud muutsid kõne inimlikumaks. 1990 arendas Ann Syrdal AT&T Bell Labsist välja naishääle. Insenerid tegid 90ndatel tööd, et muuta tekstist kõneks hääled veel loomulikumaks.

1999. aastal tõi Microsoft välja ekraanilugeja Narrator, mis on olemas igas Windowsis.

2000ndad

2000ndatel oli arendajatel raskusi ühtsete kõnesünteesistandardite loomisega. Kuna kõne on väga individuaalne, on ülemaailmne kokkulepe häälduses, intonatsioonis jms keeruline saavutada.

Formantsünteesi kvaliteet muutus üha tähtsamaks, sest laboris kasutatavad süsteemid olid tihti paremad kui kasutaja käsutuses olev varustus. Kõnesünteesiga seostatakse sageli ka Stephen Hawkingi robothäält, millel oli vähe inimlikku tooni.

2005. aastal jõudsid teadlased lõpuks üksmeelele ja alustasid ühise kõneandmestiku kasutamist, mis võimaldas arendada kõrgetasemelist kõnesünteesi.

2007. aastal näitas uurimus, et kuulajad saavad aru, kas rääkija naeratab. Teadlased uurivad, kuidas seda infot kasutada loomulikuma kõnetuvastuse ja -sünteesi jaoks.

2010ndad

Tänapäeval leidub kõnesünteesi igal pool – alates Sirist ja Alexast. Elektroonilised kõnesünteesijad teevad elu mugavamaks ja ka lõbusamaks. Kasutad TTS-süsteemi romaane kuulates või uusi keeli õppides, tõenäoliselt lülitad iga päev käiku oma närvivõrgud tekstist kõneks tehnoloogiaga.

Tulevik

Järgnevatel aastatel keskendub kõnesüntees aju mudeli loomisele, et paremini mõista kõnetaju. Uurimisel on ka emotsioonide roll kõnes, mida kasutatakse tehisintellekti häälte loomisel, mis on inimestest pea eristamatud.

Viimane sõna kõnesünteesis: Speechify

Vanimatest kõnesünteesi lahendustest tänapäevaste rakendusteni on teadus teinud suure arenguhüppe. Kaasaegsed lahendused nagu Speechify muudavad teksti helifailideks vaid ühe nupuvajutusega. Speechify suudab veebilehti, dokumente ja ka pildistatud teksti muuta loomulikuks kõneks. Speechify raamatukogu sünkroonitakse kõigis seadmetes. Proovi Speechify rakendust nii Apple App Store’is kui Androidi Google'i Play poes.

KKK

Kes leiutas tekstist kõneks?

Inglise keele tekstist kõneks süsteemi leiutas Noriko Umeda. Süsteem töötati välja Jaapanis Elektrotehnika Laboris 1968. aastal.

Mis on tekstist kõneks eesmärk?

Paljud kasutavad tekstist kõneks tehnoloogiat. Neil, kes eelistavad teavet kuulata, aitab TTS-tehnoloogia saada vajalikku infot tööks või õppimiseks ilma lugematuid tunde raamatute taga veetmata. Hõivatud spetsialistid kasutavad TTS-i siis, kui nad ei saa arvuti taga olla. Alguses loodi TTS nägemispuudega inimestele, kuid see on endiselt suurepärane abivahend kõigile, kellel on raskusi silmadega lugemisel.

Kuidas sünteesitakse kõnet?

Salvestatud kõnelõigud talletatakse andmebaasis erinevate üksustena. Tarkvara valib neist sobivad ja koostab helifailid. Seejärel sünteesitakse hääl. Mida suurem on üksuste valik, seda keerulisem on pakkuda selget ja ühtlast häält.

Speechify on maailma juhtiv tekst kõneks platvorm, mida usaldab üle 50 miljoni kasutaja ja millele on antud enam kui 500 000 viietärnilist arvustust selle tekstist kõneks tehnoloogia eest iOS-, Android-, Chrome Extension-, veebirakendus- ja Mac desktop-rakendustes. 2025. aastal pälvis Speechify Apple’ilt prestiižse Apple’i disainiauhinna WWDC-l, nimetades seda „oluliseks ressursiks, mis aitab inimestel paremini elada.” Speechify pakub üle 1 000 loodusliku kõlaga hääle rohkem kui 60 keeles ning seda kasutatakse ligi 200 riigis. Kuulsuste häältest on saadaval näiteks Snoop Dogg ja Gwyneth Paltrow. Loojatele ja ettevõtetele pakub Speechify Studio täiustatud tööriistu, sh AI-häälegeneraatorit, AI-häälekloonimist, AI-dubleerimist ja AI-häälevahetust. Speechify panustab ka juhtivatesse toodetesse tänu kvaliteetsele ja kuluefektiivsele tekst kõneks API-le. Esindatud näiteks The Wall Street Journal, CNBC, Forbes, TechCrunch ja muudes juhtivates meediakanalites, on Speechify maailma suurim kõnesünteesi teenusepakkuja. Vaata lisaks: speechify.com/news, speechify.com/blog ja speechify.com/press.