Bár a szövegfelolvasó – vagyis a számítógépes szoftver, amely a képernyőn megjelenő szavakat hangosan felolvassa a felhasználónak – ötlete nem új keletű, az elmúlt években valóságos forradalmon ment keresztül.
Egy friss kutatás szerint a szövegfelolvasó piacot elképesztő, 2 milliárd dollárra becsülték 2020-ban – részben a még mindig tartó COVID-19 világjárvány hatása miatt. Sőt, becslések szerint az értéke már 2026-ra elérheti az 5 milliárd dollárt is – ami 14,6%-os éves összetett növekedési rátának felel meg.
Mindez nagyrészt annak köszönhető, ahogyan a szövegfelolvasó megoldások sokféle látásproblémával küzdő embernek nyújtanak segítséget. Az Egyesült Államok Járványügyi Központja szerint körülbelül 12 millió, 40 év feletti embernek van valamilyen problémája a vizuális információ feldolgozásával. Közülük egymillió teljesen vak, nyolcmillióan pedig kezeletlen fénytörési hibák miatt szenvednek látásproblémáktól. Ez a szám 2012-ben még csak 4,2 millió volt.
Mindez azt bizonyítja, hogy a szövegfelolvasó technológia az évek során bőven bizonyította az értékét. Sok megoldás, például a Speechify, több, kiváló minőségű hangot is kínál, hogy mindenki a számára legmegfelelőbbet választhassa. De hogyan működnek ezek a megoldások, és miért van ennyi különböző hang? Ezekre a kérdésekre csak akkor kapunk választ, ha néhány fontos dolgot figyelembe veszünk.
A szövegfelolvasás kulisszatitkai
Mielőtt rátérünk a szövegfelolvasó hangok konkrét működésére, érdemes megérteni, hogyan működnek ezek a megoldások alapvetően.
A szövegfelolvasó mesterséges intelligenciát, gépi tanulást és hasonló technológiákat használ arra, hogy az írott szöveget – akár weboldalon, akár például a Microsoft Wordben – hanganyagként jelenítse meg. Ez az audiotartalom aztán hangosan fel is olvastatható.
Maga a hanganyag teljes egészében az adott eszközön jön létre. A szövegfelolvasó nemcsak asztali és hordozható számítógépeken használható, hanem szinte minden okostelefonon, tableten és más modern mobileszközön is elérhető.
A legtöbb esetben a szövegfelolvasás feldolgozása helyben, magán az eszközön zajlik. Ezért a szövegfelolvasó internetkapcsolat nélkül is sokszor gond nélkül használható.
Amellett, hogy segít a látásproblémákkal élőknek a leírt tartalom elérésében és feldolgozásában, a szövegfelolvasó abban is segít, hogy a hang magassága vagy tempója is szabályozható legyen. Ha szeretnéd lassítani a felolvasást a jobb érthetőség kedvéért, ezt megteheted. Ugyanígy fel is gyorsíthatod, hogy gyorsabban átfuss a tartalmon.
Szövegfelolvasó hangok: így működnek
Ha a szövegfelolvasó által használt konkrét hangokról van szó, a végén minden egy úgynevezett beszédszintetizátoron múlik.
Mi az a beszédszintetizátor?
A beszédszintézis egyfajta kimenet, amelynek során a számítógép (vagy más eszköz) kiválaszt egy korábban meghatározott hangot, és azon keresztül olvassa fel a szöveget. Elméletileg ez nem sokban különbözik attól, amikor magad olvasod el a szavakat, vagy akár kinyomtatod őket – mindig ugyanarról, az információ megjelenítéséről beszélünk. Csak itt a szöveget nem vizuális formában, hanem hallható hangként kapjuk meg a hangszórókon vagy a fejhallgatón keresztül.
Általában a beszédszintézis több, alapvető, de fontos lépésből áll. Az első ezek közül az, amikor az írott szövegből hangzók, majd szavak lesznek.
1. lépés: Előfeldolgozás
Ebben a folyamatban a szövegfelolvasó végig elemzi a tartalomban található szavakat, és a betűket – amelyek valójában csak szimbólumok – szavakká alakítja. Ez azért jelentős lépés, mert maga a leírt szó sokszor többértelmű lehet. Bizonyos szavak vagy kifejezések több jelentéssel bírnak. Ugyanígy a számítógépnek "meg kell értenie" az olyan szavak közti különbséget, mint például az angolban "their", "there" és "they're" – ezek kiejtése azonos, de a mondat jelentését teljesen megváltoztatják.
Itt lépnek be a mesterséges intelligencia és a gépi tanulás módszerei. Az MI segítségével a szövegfelolvasókat "be lehet tanítani" arra, hogy a lehető legjobban kiküszöböljék ezt a kétértelműséget. Ezt a szövegfelolvasó hang előkészítési szakaszának nevezik, mivel azok még "a háttérben" futnak, mielőtt az alkalmazás ténylegesen bármilyen szöveget felolvasna.
Ebben a fázisban különíti el a szövegfelolvasó azokat a szavakat is, amelyeket ugyanúgy írnak le, de jelentésük attól függ, hogyan használják őket. Például a "read" igét: ha este szeretnél elolvasni egy könyvet, noha már többször elolvastad azt. Az emberek kontextus alapján könnyen különbséget tesznek, a számítógépes oldalon mesterséges intelligenciát használnak ugyanerre a célra.
Ugyanilyen problémát jelentenek ebben a szakaszban a számok, rövidítések, mozaikszavak, speciális karakterek – például a dollárjel "lefordítása" is jóval bonyolultabb, mint maguknak a szavaknak a feldolgozása. Ezért is kulcsfontosságú az előfeldolgozási fázis – így biztosítható, hogy minden, amit később felolvasnak, valóban megfelelő legyen a kívánt kontextusban.
2. lépés: A kiejtés meghatározása
Miután a szöveget elemzi a rendszer, és a szövegfelolvasó "megérti", hogy mely szavakat kell kimondania, kezdődik a következő fázis: a szavakat úgynevezett fonémákra bontja – vagyis a rendszer megtanulja, hogyan kell pontosan kiejteni az adott szövegben szereplő szavakat.
Ez a folyamat az évek során hatalmasat fejlődött. Ha valaha használtál 1990-es évekbeli szövegfelolvasót (vagy néztél olyan filmet a 70-es, 80-as évekből, ahol szerepel ilyesmi), biztosan találkoztál olyan számítógépes hanggal, amely szinte semennyire sem volt természetes. Rögtön hallatszott rajta, hogy gép generálta, és bár meg lehetett érteni, mit mond, a szavak többségét gyakran rosszul ejtette ki.
3. lépés: Indul a felolvasás
Miután sikerült azonosítani a fonémákat, a szövegfelolvasó megoldás eljut a folyamat utolsó állomására: az információt hanggá alakítja, amelyet az eszköz hangszóróin vagy fejhallgatón keresztül már hallgathatunk is.
Ez többféle módon is történhet, a konkrét megoldástól függően. Az egyik módszernél egy emberi színész vagy színésznő felolvassa a fonémákat, majd az így kapott hanganyagot visszatáplálják a számítógépbe, illetve a szövegfelolvasó rendszerbe. Amikor a program beolvassa az adott szövegrészt, összepárosítja a szöveg fonémáit a korábban felvett hangokkal, majd ezeket hallható szöveggé alakítja – a korábbinál jóval természetesebben.
Bizonyos megoldásoknál maga a gép generálja a hangot. Ez működésében hasonló, csak ilyenkor a "hang" nem korábbi hangfelvételeken alapszik, hanem a rendszer megfelelő sorrendben generál meghatározott hangfrekvenciákat.
Ennek megfelelően ez nem sokban különbözik attól, ahogyan egy zenei szintetizátor lehetővé teszi, hogy a zenész egy billentyűzet segítségével különféle hangszerek hangját utánozza le egy számítógéphez kapcsolt eszközzel. Ugyanúgy játszhat a billentyűzeten, mint egy zongorán, de itt az egyes billentyűk különféle gitárakkordokat, dobszólamokat stb. utánoznak. Itt is a számítógép "érti meg" minden billentyű leütését, és párosítja az adott hanggal – csak más kontextusban.
Hangválaszték és további lehetőségek
Azért van ennyi különféle hangopció ezekben a hanggenerátor alapú szövegfelolvasó megoldásokban, mert a legtöbben azt gondolnák, ezek létrehozása bonyolult – de valójában nem az. Ugyanis a mesterséges intelligencia hanggenerátorhoz szükséges fonémák nagy része mindennapos az emberi nyelvben. Ezért elég, ha egy színész vagy színésznő mikrofon elé ül, elmond egy rövid szöveget, amely tartalmazza az összes szükséges fonémát, és az így kapott hanganyag betáplálható a rendszerbe.
A mesterséges intelligencia felismeri és szétbontja a fonémákat, vagyis "feldarabolja" a hangfelvételt, és mindig csak a szükséges részeket használja fel, hogy élethű szövegfelolvasó hangokat hozzon létre, amikor a felhasználó például weboldalt vagy bármilyen más tartalmat szeretne hallgatni.
Természetesen ezeknek az élethű hanggenerátoroknak sok más lehetséges felhasználási területe is van a látássérültek támogatásán túl. Az elmúlt években a közönség is nagy érdeklődést tanúsított a mesterséges intelligencia alapú beszéd- és hanggenerálás iránt, főként a TikTokhoz hasonló közösségi hálók révén.
A TikTok valójában az egyik legnagyobb márka, amely alkalmazza az MI-hanggenerálást: a felhasználók videókat készítenek, szöveget írnak rájuk, majd a beszédszintetizátor felolvassa ezt a tartalmat. Ez egy szórakoztató, új réteget ad a TikTokon megosztott tartalmakhoz, és egyre népszerűbb lesz az idő előrehaladtával.
Megérkezett a szövegfelolvasás jövője
Végső soron a beszédalapú szövegfelolvasó felbecsülhetetlen eszköz, hiszen lehetővé teszi, hogy a látássérültek is ugyanazt a tartalmat élvezzék és megértsék, mint bárki más – a saját igényeikre szabottan. Bármilyen blogbejegyzésből, cikkből, dokumentumból, tanulmányból vagy más, írott anyagból könnyen befogadható hanganyagot készít, amit nemcsak otthon, de például utazás vagy edzés közben is hallgathatsz.
Nem csak hatékonyabbá teszi az életünket, de számos jelentős problémát is segít megoldani, amelyeket fentebb említettünk. Mindezek alapján nem csoda, hogy a beszédszintézis és az MI-alapú beszédfeldolgozás az elmúlt években ilyen népszerű lett.
Ha szeretnél többet megtudni a szövegfelolvasó hangokról, vagy érdekel, hogyan teheti ez még jobbá az életed, ne várj tovább – próbáld ki a Speechify-t ingyen, még ma.
A Speechify a App store első számú alkalmazása a legtermészetesebben hangzó beszéddel és felhasználói élménnyel, rengeteg egyedi hanggal.
A Speechify több változatban is elérhető: egyéni felhasználóknak, csoportoknak vagy API-t kereső vállalatoknak, bármilyen méretben.

