A beszédszintézis, vagyis az emberi hang mesterséges előállítása az elmúlt 70 évben óriási változáson ment keresztül. Akár azért használja a szövegfelolvasó szolgáltatásokat, hogy könyveket hallgasson, tanuljon, vagy saját szövegeit ellenőrizze, kétségtelen, hogy a szövegfelolvasók rengeteg szakmában megkönnyítik a mindennapokat.
Az alábbiakban áttekintjük, hogyan működik a szövegfelolvasás, és hogyan alakult át az évek során ez a támogató technológia.
Bevezetés
Az 1700-as években egy orosz professzor, Christian Kratzenstein akusztikus rezonátorokat hozott létre, amelyek az emberi hangot utánozták. Két évtizeddel később a VODER (Voice Operating Demonstrator) nagy figyelmet kapott a New York-i Világkiállításon, amikor készítője, Homer Dudley bemutatta, hogyan lehet az emberi beszédet mesterséges úton előállítani. A készüléket nehéz volt kezelni – Dudley például a lábával vezérelte az alapfrekvenciát.
Az 1800-as évek elején Charles Wheatstone fejlesztette ki az első mechanikus beszédszintetizátort. Ez indította el a beszédképzési szintézis eszközök és technológiák gyors fejlődését.
Nehéz pontosan meghatározni, mitől jó egy szövegfelolvasó program, de ahogy sok másnál: ha meghalljuk, azonnal érezzük. A magas minőségű szövegfelolvasók természetes hangzású hangokat kínálnak, valósághű hanglejtéssel és tónussal.
A szövegfelolvasó technológia segíthet a látássérült vagy más fogyatékossággal élő embereknek abban, hogy hozzáférjenek a szükséges információkhoz, így könnyebben boldoguljanak a munkában és kapcsolatot tarthassanak másokkal. A szoftver lehetővé teszi a diákoknak és mindazoknak, akiknek nagy mennyiségű szöveget kell feldolgozniuk, hogy útközben, emberi beszéd formájában hallgassák meg az információikat. A szintetikus beszéd révén több mindent el tudunk végezni kevesebb idő alatt, és számos helyzetben hasznos, a videojáték-fejlesztéstől kezdve a sajátos tanulási nehézségekkel élők támogatásáig.
1950-es és 60-as évek
Az 1950-es évek végén jelentek meg az első beszédszintézis rendszerek. Ezek a rendszerek már számítógép-alapúak voltak. 1961-ben John Larry Kelly Jr., a Bell Labs fizikusa egy IBM számítógéppel szintetizált beszédet. Az általa készített vokóder (hangrögzítő szintetizátor) újraalkotta a Daisy Bell című dalt.
Amikor Kelly a vokóderét tökéletesítette, Arthur C. Clarke, a 2001: Űrodüsszeia írója Kelly bemutatóját a könyv filmforgatókönyvében is felhasználta. A film egyik jelenetében a HAL 9000 számítógép elénekli a Daisy Bell-t.
1966-ban jelent meg a lineáris predikciós kódolás. Ennek a beszédkódolási formának a kidolgozását Fumitada Itakura és Shuzo Saito kezdte meg. Bishnu S. Atal és Manfred R. Schroeder szintén hozzájárult a lineáris predikciós kódolás fejlesztéséhez.
1970-es évek
1975-ben Itakura kifejlesztette a vonális spektrumpár (line spectral pairs) módszert. Ez a nagy tömörítési arányú beszédkódolási eljárás segített Itakurának jobban megérteni a beszéd elemzését és szintézisét, feltárni a gyenge pontokat és javítani azokat.
Ugyanebben az évben jelent meg a MUSA is. Ez az önálló beszédszintézis rendszer egy algoritmust használt az olasz nyelvű szövegek felolvasására. Három évvel később egy olyan verzió is napvilágot látott, amely már olaszul énekelni is tudott.
A 70-es években fejlesztették ki az első olyan artikulációs szintetizátort, amely az emberi hangképző szerveken alapult. Az első ismert szintetizátort Tom Baer, Paul Mermelstein és Philip Rubin készítette a Haskins Laboratories-nál. A trió a Bell Laboratories által az 1960-as és 1970-es években készített hangképző modelljeire támaszkodott.
1976-ban bemutatták a Kurzweil Reading Machines for the Blind készülékeket. Bár ezek a készülékek túl drágák voltak az átlagfelhasználók számára, a könyvtárak gyakran biztosították őket a látássérülteknek, hogy könyveket hallgathassanak.
A lineáris predikciós kódolás lett a szintetizátor chipek alapja. A Texas Instruments LPC Speech Chipjei és a Speak & Spell játékok a 70-es évek végén mind szintetizátor chipekkel működtek. Ezek a játékok az akkori robotikus hangzású szintetikus hangokkal szemben pontos intonációval rendelkező, emberi hangokat szólaltattak meg. Ebben az évtizedben sok kézi elektronikai eszköz vált népszerűvé, amelyek képesek voltak beszédet szintetizálni, például a Telesensory Systems Speech+ számológép a látássérülteknek. 1979-ben jelent meg a Fidelity Voice Chess Challenger, egy sakkszámítógép, amely képes volt beszédet szintetizálni.
1980-as évek
Az 1980-as években a beszédszintézis meghódította a videojátékok világát is. 1980-ban jelent meg a Stratovox (egy lövöldözős stílusú arcade játék) a Sun Electronics-tól. A Manbiki Shoujo (angolul Shoplifting Girl, vagyis Bolti tolvaj lány) volt az első személyi számítógépes játék, amely képes volt beszédet szintetizálni. Az elektronikusan működő Milton játék is 1980-ban került a boltokba – ez volt a Milton Bradley Company első olyan elektronikus játéka, amely képes volt az emberi hang szintetizálására.
1983-ban jelent meg a DECtalk nevű önálló akusztikus-mechanikai beszédgép. A DECtalk képes volt fonetikus írásmód szerint felismerni a szavakat, így a szokatlan kiejtésű szavakra is be lehetett állítani egyedi kiejtést. Ezekhez a fonetikus betűzésekhez tónusjelölés is társulhatott, amit a DECtalk beszéd közben követett. Így a DECtalk énekelni is tudott.
A 80-as évek végén Steve Jobs létrehozta a NeXT rendszert, amelyet a Trillium Sound Research fejlesztett. Bár a NeXT nem lett igazán elterjedt, Jobs később a 90-es években integrálta ezt a programot az Apple rendszerébe.
1990-es évek
A szöveget szintetizáló rendszerek korai verziói kifejezetten robothangúak voltak, de ez a 80-as évek végén és a 90-es évek elején megváltozott. A lágyabb mássalhangzók révén a gépi hangok fokozatosan elvesztették elektronikus jellegüket, és emberibbé váltak. 1990-ben Ann Syrdal az AT&T Bell Laboratories-nál női beszédfelolvasó hangot fejlesztett ki. A mérnökök egész évtizedben azon dolgoztak, hogy egyre természetesebb, emberhez hasonló hangzásúvá tegyék a szintetizált hangokat.
1999-ben a Microsoft kiadta a Narrátor nevű képernyőolvasó megoldást, amely ma már minden Microsoft Windows kiadás szerves része.
2000-es évek
A beszédszintézis a 2000-es években néhány nehézséggel szembesült, mivel a fejlesztőknek kihívást jelentett közösen elfogadott szabványokat kialakítaniuk a szintetikus beszédhez. Mivel a beszéd nagyon egyéni, nehéz világszerte egységesen elfogadott ejtési szabványokat, fonémákat, difonokat, intonációt, hangszínt, visszajátszási mintázatokat és hanglejtést meghatározni.
A formánsszintézises beszédaudió minősége a 90-es években szintén fókuszba került, mivel a mérnökök és kutatók észrevették, hogy a laboratóriumban használt rendszerek minősége jóval meghaladta azt a szintet, amelyet a felhasználók otthon elértek. Amikor a beszédszintézisre gondolunk, sokaknak Stephen Hawking hangszintetizátora jut eszébe, amely gépies, kevéssé emberi hangot adott.
2005-ben a kutatók végre meg tudtak egyezni, és közösen használt beszéddataszetet kezdtek alkalmazni, ami lehetővé tette, hogy egységes alapelvekből induljanak ki a magas szintű beszédszintézis rendszerek kialakításakor.
2007-ben egy tanulmány kimutatta, hogy a hallgatók képesek felismerni, ha a beszélő mosolyog. A kutatók azóta is dolgoznak azon, hogy ezt az információt természetesebb beszédfelismerő és beszédszintetizáló szoftverek fejlesztéséhez használják fel.
2010-es évek
Manapság mindenhol találkozunk a beszédjelekre épülő beszédszintézis termékekkel, a Siritől kezdve az Alexáig. Az elektronikus beszédszintetizátorok nemcsak egyszerűbbé teszik az életet – szórakoztatóbbá is. Akár TTS rendszert használ regények hallgatására útközben, akár idegen nyelv tanulását segítő alkalmazásokat, nagy eséllyel a szövegfelolvasó technológiák is szerepet játszanak abban, hogy nap mint nap megdolgoztassa az idegrendszerét.
A jövő
A következő években várhatóan a hangszintézis technológia egyre inkább az agy működésének modellezésére összpontosít majd, hogy jobban megértsük, miként rögzítjük a beszédadatokat az elménkben. A beszédtechnológia arra is törekszik, hogy jobban feltérképezze az érzelmek szerepét a beszédben, és ezt az információt felhasználva hozzon létre olyan mesterséges intelligencia alapú hangokat, amelyek gyakorlatilag megkülönböztethetetlenek a valódi emberek hangjától.
A legújabb hangszintézis technológia: Speechify
Ha végigtekintünk a korábbi beszédszintézis technológiáktól napjainkig tartó fejlődésen, lenyűgöző belegondolni, milyen messzire jutott a tudomány. Manapság a Speechify-hoz hasonló alkalmazásokkal gyerekjáték bármilyen szöveget hangfájllá alakítani. Egyetlen gombnyomással (vagy koppintással az alkalmazásban) a Speechify képes weboldalakat, dokumentumokat, szöveges képeket természetes hangzású beszéddé alakítani. A Speechify könyvtára minden eszközén szinkronban marad, így bárhol, bármikor egyszerűen folytathatja a tanulást és a munkát. Nézze meg a Speechify alkalmazást az Apple App Store-ban és az Android Google Play áruházban is.
GYIK
Ki találta fel a szövegfelolvasót?
Az angol nyelvű szövegfelolvasót Noriko Umeda találta fel. A rendszert 1968-ban fejlesztették ki a japán Electrotechnical Laboratoryban.
Mi a szövegfelolvasás célja?
Sokan használják a szövegfelolvasó technológiát. Azok számára, akik jobban szeretik az információkat hang formátumban megkapni, a TTS technológia megkönnyíti, hogy hozzáférjenek a szükséges információkhoz anélkül, hogy órákat kellene könyvek fölé hajolva tölteniük. Elfoglalt szakemberek is gyakran használnak TTS technológiát, hogy akkor is tudjanak haladni a munkájukkal, amikor éppen nem ülhetnek számítógép előtt. A TTS technológiák sok típusa eredetileg látássérültek számára készült, és ma is kiváló eszköz azoknak, akik nehezen látnak, hogy hozzáférjenek a számukra fontos információkhoz.
Hogyan készül a szintetikus beszéd?
Felvett beszédrészletek különböző egységekben egy adatbázisban tárolódnak. A szoftver egységkiválasztással állítja össze belőlük a hangfájlokat. Ettől a ponttól kezdve jön létre maga a hang. Gyakran igaz, hogy minél nagyobb egy program kimeneti tartománya, annál nehezebb számára, hogy igazán tiszta beszédet biztosítson a felhasználónak.

