Tehnologije pretvaranja teksta u govor (TTS) i sinteze glasa možda djeluju novo, ali imaju bogatu povijest dugu nekoliko stoljeća.
Od pokušaja oponašanja ljudskog govora pomoću mehaničkih naprava do današnje umjetne inteligencije i dubokog učenja, razvoj TTS-a bilo je uzbudljivo putovanje.
U ovom članku detaljnije ćemo istražiti povijest tehnologije pretvaranja teksta u govor i glasovne sinteze te razmotriti uzbudljive mogućnosti koje tek dolaze.
Pretvaranje teksta u govor i glasovna sinteza: od ranog razvoja do suvremene primjene
18. i 19. stoljeće
Povijest pretvaranja teksta u govor i sinteze glasa počinje u 18. i 19. stoljeću. Tada bilježimo prve pokušaje sinteze govora pomoću mehaničkih uređaja. 1770-ih godina Mađar Wolfgang von Kempelen osmislio je akustično-mehanički stroj za govor kako bi imitirao ljudski glas, koristeći mijeh, jezičce i cijevi za stvaranje samoglasnika i suglasnika.
Krajem 18. stoljeća engleski fizičar Charles Wheatstone napravio je još mehaničkiju verziju Kempe-lenovog stroja, nazvanu "speaking machine". Uređaj je mogao reproducirati zvukove različitih instrumenata. Iako nije bio izravno namijenjen za govor, dodatno je učvrstio ideju stvaranja zvuka uz pomoć mehanike.
U 19. stoljeću razvijeni su i drugi uređaji, uključujući Faberov stroj za "umjetni govor". Ti su sustavi kombinirali mehaničke i pneumatske dijelove za stvaranje glasova.
Rano 20. stoljeće i prvi potpuno električni sintetizator govora
Početkom 20. stoljeća tehnologija sinteze govora postaje naprednija uz izum prvog električnog govornog sintetizatora – vocodera Homera Dudleya iz Bell Laboratories u New Jerseyju.
Dudleyev vocoder koristio je rezonatore i filtre za stvaranje sintetičkog govora. Stručnjaci su ga, pod imenom "Voder", demonstrirali na Svjetskoj izložbi 1939.–1940. u New Yorku, upravljajući strojem putem tipkovnice i pedala.
Rane 1950-e do kraja 1970-ih – uspon sintetizatora
Godine 1951. dr. Franklin S. Cooper iz Haskins Laboratories razvio je "pattern playback", nadahnut Dudleyevim radom. Sustav je analizirao snimljeni zvuk i pretvarao ga u spektrografske uzorke, koji su se zatim reproducirali kao sintetički govor.
Godine 1976. predstavljen je Kurzweil Reading Machine, prvi komercijalno uspješan TTS sustav. Koristio je metodu konkatativne sinteze, spajajući snimljene foneme i riječi radi stvaranja govora, što je pomoglo osobama s invaliditetom i ubrzo postalo popularno kao pomoć pri čitanju.
Od 1978. Texas Instruments radi na čipu za sintezu govora za igre i računalne primjene. Čip je koristio konkatativnu sintezu spajajući snimljene glasove (difone) za realističan govor. Ta se tehnologija kasnije koristi u DECtalk sustavima koji su omogućili umjetni govor osobama s invaliditetom.
Moderni sustavi pretvaranja teksta u govor
Jedna od ključnih inovacija posljednjih godina je primjena neuronskih mreža za generiranje sintetičkog govora. Tvrtke poput Googlea i Microsofta razvile su visokokvalitetne TTS sustave koji koriste duboko učenje i velike baze podataka za stvaranje prirodnijeg govora.
Još jedna važna inovacija u TTS-u jest korištenje tehnika izbora jedinica i konkatativne sinteze. Spajajući male dijelove snimljenog govora (difone ili cijele riječi), moguće je stvarati realističnije rečenice. Te tehnike koriste popularne aplikacije kao što su Speechify, Apple Siri, Amazon Alexa i stariji alati poput IBM ViaVoice.
Tehnologija prepoznavanja govora uvelike je napredovala posljednjih godina, omogućujući sofisticiranije TTS sustave. Algoritmi za prepoznavanje govora omogućuju precizniju transkripciju i prirodnije prijelaze u sintetičkom govoru.
U novije vrijeme vidimo i snažniju integraciju prozodije i intonacije, što stvara prirodniji govor s prikladnim pauzama, naglascima i tonom. Prozodija je posebno važna za jezike poput engleskog, gdje naglasak i intonacija bitno utječu na smisao rečenice.
Duboko učenje i dalje: budućnost tehnologije
Budućnost TTS-a uzbudljiva je i puna potencijala. Sa sve većom primjenom umjetne inteligencije i dubokog učenja, možemo očekivati još prirodniji govor koji će bolje odražavati suptilnosti ljudske komunikacije.
To će biti posebno korisno u razvoju virtualnih asistenata i chatbotova. Sustavi će postati razgovorniji i omogućiti prirodniju interakciju korisnika s uređajima.
Očekuju se i pomaci u fonetskoj transkripciji, odnosno pretvaranju teksta u foneme. Kako strojevi budu bolje prepoznavali ljudski govor, točnost i učinkovitost sustava kontinuirano će rasti.
Također se očekuje šira dostupnost TTS-a i njegova integracija u svakodnevni život. Povezivanjem uređaja putem interneta stvari korisnici će njima moći upravljati glasom u stvarnom vremenu, što će svakodnevicu učiniti praktičnijom i učinkovitijom.
Pridružite se revoluciji pretvaranja teksta u govor uz Speechify
Ako trebate naprednu pretvorbu teksta u govor s prirodnim i kvalitetnim izgovorom, isprobajte Speechify.
Speechify koristi naprednu formantnu sintezu za realističan i prirodan glas – za razliku od robotskog govora iz prošlosti. Čak bi i poznati autori poput Stephena Hawkinga, koji je koristio TTS, vjerojatno bili impresionirani njegovim mogućnostima.
Korištenje Speechify-a je jednostavno – posjetite službenu web-stranicu ili preuzmite mobilnu aplikaciju i unesite željeni tekst. Zatim odaberite glas, prilagodite brzinu i visinu, i gotovo! Speechify stvara prirodne naracije pogodne za e-učenje, objašnjenja, podcaste i prezentacije. Možete stvoriti i vlastite prilagođene glasove za YouTube i ostale kanale na društvenim mrežama.
Ne zadovoljavajte se lošim TTS rješenjima – isprobajte Speechify još danas i otkrijte budućnost tehnologije pretvaranja teksta u govor.
FAQ
Tko je razvio prvi govorni sintetizator?
Homer Dudley dizajnirao je prvi govorni sintetizator početkom 1930-ih u Bell Laboratories u New Yorku.
Koja je svrha govorne sinteze?
Sinteza govora stvara umjetni govor iz teksta pomoću jezične obrade i analize temeljne frekvencije.
Na koja četiri načina se koristi TTS?
TTS se koristi za pristupačnost, zabavu, učenje jezika i automatizaciju glasovnih usluga.
Koje su prednosti pretvaranja teksta u govor?
TTS poboljšava pristupačnost, pomaže u učenju i povećava produktivnost omogućujući slušanje pisanih sadržaja.
Koji je bio najiznenađujući trenutak u razvoju TTS sinteze?
Jedan od najiznenađujućih trenutaka bio je izum Charlesa Wheatstonea – njegov mehanički govorni sintetizator.

