Sinteza govora oziroma umetno ustvarjanje človeškega glasu se je v zadnjih 70 letih izjemno razvila. Ne glede na to, ali danes uporabljate pretvorbo besedila v govor za poslušanje knjig, učenje ali lekturo lastnih besedil, je jasno, da so te storitve mnogim poklicem močno olajšale delo.
V nadaljevanju si bomo ogledali, kako deluje pretvorba besedila v govor in kako se je ta podporna tehnologija spreminjala skozi čas.
Uvod
V 18. stoletju je ruski profesor Christian Kratzenstein ustvaril akustične resonatorje, ki so posnemali zvok človeškega glasu. Dve desetletji pozneje je naprava VODER (Voice Operating Demonstrator) vzbudila veliko pozornosti na svetovni razstavi v New Yorku, ko je izumitelj Homer Dudley občinstvu pokazal, kako je mogoče s pomočjo naprav ustvariti človeški govor. Napravo je bilo zelo zahtevno upravljati – Dudley je moral temeljno frekvenco nadzorovati s stopalkami.
Na začetku 19. stoletja je Charles Wheatstone razvil prvi mehanski sintetizator govora. To je sprožilo hiter razvoj orodij in tehnologij za artikulacijsko sintezo.
Težko je natančno določiti, kaj naredi dobro programsko opremo za pretvorbo besedila v govor, a kot pri marsičem v življenju to prepoznamo, ko jo slišimo. Dober program ponuja naravne glasove z resničnimi naglasi in izrazno intonacijo.
Tehnologija pretvorbe besedila v govor pomaga slepim in osebam z drugimi oviranostmi do informacij, ki jih potrebujejo za uspešno delo in komunikacijo. Programska oprema omogoča tudi študentom in vsem z obsežnim branjem, da vsebine poslušajo med gibanjem. Sintetični govor ljudem pomaga narediti več v krajšem času in je uporaben v različnih okoljih – od razvoja iger do premagovanja jezikovnih ovir.
50. in 60. leta
Pozna 50. leta so prinesla prve računalniške sisteme za sintezo govora. Leta 1961 je fizik John Larry Kelly Jr. iz Bell Labs uspešno uporabil IBM-ov računalnik za sintezo govora. Njegov vokoder (sintetizator govora) je reproduciral pesem Daisy Bell.
Približno v istem času, ko je Kelly izpopolnjeval vokoder, je Arthur C. Clarke, avtor romana 2001: Vesoljska odiseja, Kellyjevo demonstracijo vključil v filmski scenarij. V eni izmed scen računalnik HAL 9000 zapoje pesem Daisy Bell.
Leta 1966 je prišlo do preboja z linearno predikcijskim kodiranjem govora. To vrsto kodiranja sta najprej razvijala Fumitada Itakura in Shuzo Saito, pomembno pa sta prispevala tudi Bishnu S. Atal in Manfred R. Schroeder.
70. leta
Leta 1975 je Itakura razvil metodo linijskih spektralnih parov. Ta učinkovita metoda kodiranja govora mu je omogočila podroben vpogled v analizo in sintezo govora, odkrivanje pomanjkljivosti in uvajanje izboljšav.
V tem letu je bil izdan tudi MUSA. Samostojni sistem za sintezo govora je z algoritmom bral italijanščino na glas. Čez tri leta je različica že znala tudi peti v italijanščini.
V 70. letih je bil razvit prvi artikulacijski sintetizator na osnovi človeškega vokalnega trakta. Prvi znani sintetizator so razvili Tom Baer, Paul Mermelstein in Philip Rubin v laboratorijih Haskins. Pri delu so uporabili modele vokalnega trakta Bellovih laboratorijev iz 60. in 70. let.
Leta 1976 so predstavili Kurzweilove bralne naprave za slepe. Čeprav so bile za večino predrage, so jih knjižnice ponujale slepim za poslušanje knjig.
Linearno predikcijsko kodiranje je omogočilo razvoj čipov za sintetizatorje. Texas Instruments LPC Speech Chips ter igrače Speak & Spell iz konca 70. let so uporabljali to tehnologijo. Te naprave so ustvarjale prepoznavne intonacije, ki so se ločile od takratnih robotskih sinteziranih glasov. V 70. letih so postali priljubljeni žepni elektronski pripomočki s sintezo govora, denimo kalkulator Speech+ za slepe ter Fidelity Voice Chess Challenger, šahovski računalnik z govorom, izdan leta 1979.
80. leta
V 80. letih je sinteza govora zaznamovala svet video iger. Leta 1980 je Sun Electronics izdal Stratovox, prvo arkadno igro z govorom. Manbiki Shoujo (angleško Shoplifting Girl) je bila prva PC igra s sintezo govora. Istega leta je podjetje Milton Bradley izdalo svojo prvo elektronsko igro, Milton, ki je ponujala sintetični človeški glas.
Leta 1983 je prišla samostojna akustično-mehanska govorna naprava DECtalk. DECtalk je razumel fonetični zapis in omogočal prilagoditev izgovorjave tudi redkih besed. Fonetični zapisi so lahko vsebovali tudi tonske oznake za petje.
Pozna 80. leta je Steve Jobs predstavil NeXT, sistem, ki ga je razvilo podjetje Trillium Sound Research. Čeprav NeXT ni uspel, je Jobs kasneje program v 90. letih združil z Applom.
90. leta
Starejše različice sistemov za sintezo govora so zvenele izrazito robotsko, a to se je v 80. in 90. letih začelo spreminjati. Mehkejši soglasniki so poskrbeli, da je govor zvenel bolj naravno. Leta 1990 je Ann Syrdal v AT&T Bell Labs razvila ženski sintetiziran glas. Inženirji so v 90. letih glasove še bolj približali naravnemu govoru.
Leta 1999 je Microsoft izdal Narrator, bralnik zaslona, ki je danes vključen v vsak Windows.
2000. leta
Sinteza govora je v 2000-ih naletela na izzive, saj so razvijalci težko določili splošna pravila za sintezo. Govor je zelo oseben, zato se je bilo mednarodno težko poenotiti glede izgovorjave glasov, intonacije, tona in poudarkov.
Kakovost zvoka formantne sinteze govora je bila v 90. letih v ospredju, saj so raziskovalci opazili, da so laboratorijski sistemi precej naprednejši od opreme običajnih uporabnikov. Mnogi ob omembi sinteze govora pomislijo na glasovni sintetizator Stephena Hawkinga, ki je imel robotski glas z malo človeškega tona.
Leta 2005 so se raziskovalci vendarle dogovorili in začeli uporabljati skupne zbirke govornih podatkov, zato so lahko vrhunske sisteme za sintezo govora razvijali na enotnih osnovah.
Leta 2007 je raziskava pokazala, da poslušalci prepoznajo, ali govorec govori z nasmeškom. Raziskave še vedno potekajo, da bi to upoštevali pri sintezi bolj naravnega govora in pri prepoznavanju govora.
2010. leta
Danes so izdelki za sintezo govora, ki uporabljajo glasovne signale, skoraj povsod – od Siri do Alexe. Elektronski govor ni le praktičen, temveč tudi zabaven. Ne glede na to, ali uporabljate TTS sistem za poslušanje romanov na poti ali aplikacije za učenje tujega jezika, najbrž s tehnologijo govora vsak dan dodatno zaposlite svoje možgane.
Prihodnost
V prihodnje se bo tehnologija verjetno osredotočila na možganske modele, da bi bolje razumeli, kako shranjujemo govorne podatke. Raziskovali bodo tudi vlogo čustev v govoru in uporabili podatke za ustvarjanje AI glasov, ki jih bo skoraj nemogoče ločiti od resničnih ljudi.
Najnovejše v sintezi glasu: Speechify
Ko spoznavate prehod iz zgodnje tehnologije sinteze govora, je neverjetno videti, kam je napredovala znanost. Danes aplikacije, kot je Speechify, omogočajo, da preprosto spremenite besedilo v zvočne datoteke. Z enim klikom ali tapom lahko Speechify pretvori spletne strani, dokumente in slike besedila v naravni govor. Knjižnica Speechify se sinhronizira med napravami, zato lahko nemoteno študirate in delate na poti. Preverite Speechify v Applovi trgovini ter na Androidu in v trgovini Google Play.
Pogosta vprašanja
Kdo je izumil pretvorbo besedila v govor?
Sintezo govora za angleščino je zasnovala Noriko Umeda. Sistem je bil razvit leta 1968 na Elektrotehničnem inštitutu na Japonskem.
Kaj je namen pretvorbe besedila v govor?
Tehnologijo TTS uporablja veliko ljudi. Tistim, ki raje prejemajo informacije v zvočni obliki, TTS tehnologija omogoča, da hitro pridejo do podatkov brez dolgotrajnega branja. Zaposleni uporabljajo TTS za delo, kadar nimajo dostopa do zaslona. Številne oblike TTS-ja so bile sprva razvite za slepe, danes pa so še vedno odlična pomoč pri težavah z vidom.
Kako sintetizirate govor?
Deli posnetega govora so shranjeni v podatkovni bazi v različnih enotah. Program izbere ustrezne enote in iz njih sestavi zvočne datoteke. Tako nastane glas. Večji kot je razpon enot, težje je v programu doseči povsem jasno in razumljivo govorjenje.

