A szövegfelolvasó (TTS) megoldások mára az akadálymentes technológiák alapvető eszközeivé váltak: rengeteg PC-felhasználónak segítenek kapcsolatba lépni az írott szöveggel – legyen szó kikapcsolódásról, tanulásról vagy munkáról.
Ahogy sejthető, a TTS-piac igencsak telített, rengeteg alkalmazás és böngészőbővítmény közül válogathatunk. A legtöbbjük kifejezetten hasznos, jelentősen növeli a produktivitásodat, és sokkal felhasználóbarátabb élményt nyújt. Ma a Microsoft TTS-megoldására, vagyis az Azure-ra koncentrálunk.
Mi az a Microsoft szövegfelolvasó?
De mi is az az Azure? A választ akár úgy is megfogalmazhatjuk: szeretnéd, ha természetes hangzású hangalámondással készíthetnél tartalmakat, vagy narrált formában hallgathatnád kedvenc oldalaidat, rengeteg testreszabási lehetőséggel, például beszédsebesség, hangszín, kiejtés vagy egyéb finomhangolási opciók állításával? A Microsoft Azure mindezt — sőt még többet is — lehetővé teszi számodra.
Az Azure egy felhőalapú platform, amely rengeteg lehetőséget rejt magában. Az Azure kognitív szolgáltatások például fantasztikus szövegfelolvasó és beszédfelismerő megoldásokat kínálnak, de az Azure felhőtárhelyét és elemzési funkcióit kihasználva még tovább növelhetjük a produktivitást – mindezt anélkül, hogy mélyebb gépi tanulási ismeretekre lenne szükségünk.
Az Azure számos nyílt forráskódú megoldással is kompatibilis, vagyis rendkívül rugalmas. Egyedi alkalmazásokba is könnyen beépíthető a hangalámondás funkció, így a célközönség gond nélkül élvezheti a gépi tanulás előnyeit — főleg, hogy az Azure több mint száz nyelvet és nyelvi változatot támogat.
Hogyan használhatod a Microsoft szövegfelolvasó alkalmazását iPhone-odon vagy számítógépeden?
A Microsoft Azure beüzemelése az eszközödön nagyon egyszerű – mindössze néhány kattintás a regisztráció a hivatalos Azure weboldalon. Viszont ha csak olyan Microsoft-programokat használsz, mint például az Outlook, a Word, a PowerPoint, a Docs vagy a OneNote, akkor külön letöltés nélkül is elérhető egy beépített szövegfelolvasó, a Speak.
Bár nem a legmagasabb minőséget képviseli, a Speak akkor is jól jön, ha gyorsan kell megoldanod valamit, és rendkívül egyszerű beállítani:
- Kattints a Toolbar testreszabása (Customize Toolbar) opcióra
- Válaszd a További parancsok (More Commands) lehetőséget
- Kattints az Összes parancsra (All Commands)
- Keresd meg a Speak-t, kattints rá, majd kattints a Hozzáadásra (Add)
Alternatívák a Microsoft szövegfelolvasó alkalmazásához
Ahogy a bevezetőben is írtuk, szövegfelolvasókból nincs hiány: a csúcsra árazott profi alkalmazásoktól a GitHub-on elérhető, félig kész beszédfelismerő SDK-kig minden megtalálható. Ha a Microsoft TTS hangasszisztense nem nyerte el a tetszésedet, vagy csak egy kis változatosságra vágysz, összegyűjtöttünk pár alternatívát, amelyek jó eséllyel elnyerik a tetszésedet.
Speechify
Az első helyen a Speechify áll, amely az egyik legismertebb és legjobbra értékelt TTS-eszköz, és gyakorlatilag bármilyen szöveget képes hangfájllá alakítani. Minden Microsoft-alkalmazással működik, szövegfelolvasó modelljei lenyűgözőek. Kiváló API-képességei révén rugalmasan alkalmazkodik szinte bármilyen igényhez vagy felhasználási esettípushoz.
Amazon Polly
A második helyet az Amazon Polly foglalja el: ez egy nagyszerű megoldás, amely természetes hangzású hangjairól és sokféle beszédstílusáról ismert. Számos nyelvet támogat, neurális TTS-technológiája rengeteg testreszabási lehetőséget kínál, hogy még élethűbb felolvasások születhessenek.
Google Cloud Szövegfelolvasó
A harmadik helyen a Google Cloud Text to Speech található. Ha technológiai fejlődésről van szó, a Google sosem maradhat le – nincs ez másként a TTS-piacon sem. Ez a megoldás főként az SSML-re, vagyis a szövegfelolvasó jelölőnyelvre épül, és karakterenkénti díjazással működik, így akár egyszeri projektekhez is hasznos és megfizethető lehetőség.
IBM Watson Szövegfelolvasó
A negyedik helyre került az IBM Watson. Ami igazán kiemeli a versenytársak közül, az a sokoldalúsága a vállalati környezetekben: egyszerre használható virtuális asszisztensként, ügyfélszolgálati eszközként és szövegfelolvasó megoldásként is. Ráadásul rendkívül pénztárcabarát, így ha rugalmas megoldást keresel, nehéz nála jobbat találni.
Readspeaker
Az ötödik helyen egy igazi veterán, a Readspeaker áll. Közel negyed évszázados tapasztalatával a TTS-t szinte tökélyre fejlesztették. Több mint száz nyelvet támogat, remekül használható beszédstúdiókban és e-learningben is, akár online, akár offline környezetben.
NaturalReader
A hatodik helyezett a NaturalReader. Ez az app valós időben szintetizált felolvasást nyújt, és szinte minden, PC-n használt programmal kompatibilis. Ami a listánkba juttatta, az a különleges olvasó mód — ez megtisztítja a szöveget minden fölösleges zavaró elemtől, például a reklámoktól.
VoiceDream Reader
A hetedik helyen a VoiceDream Reader szerepel, a mai utolsó Microsoft Azure TTS-alternatíva. Bár egyszerűbb feladatokra jól használható, sok felhasználó panaszkodik a gyenge akadálymentességre és a szinkronizálási lehetőségek hiányára. De ha gyors megoldás kell, és nem a legmodernebb neurális TTS és a teljesen automatizált technológia számít, a VoiceDream is jó választás lehet.
GYIK
Ingyenes a Windows 10 szövegfelolvasó?
A Windows 10-hez számos TTS-megoldás érhető el, melyek közül néhány ingyenes, mások viszont fizetősek. A Windows 10-be beépített Speak opció – amely működik többek között az Outlookban és a Wordben is – ingyenes, de a fejlettebb, neurális hangzású lehetőségekért és extrákért, például a Microsoft Azure esetén, előfizetésre van szükség.
Melyik a legélethűbb TTS hang?
A legélethűbb TTS-hangokat általában a fejlettebb szövegfelolvasó eszközök, például az Amazon Polly és a Speechify kínálják. A realizmus szintje a választott nyelvtől, hangmodelltől és beállításoktól függ.
Mi a különbség a szövegfelolvasó és a hangfelismerés között?
Bár sok TTS-program mindkét lehetőséget – szövegfelolvasást és hangfelismerést – kínálja, fontos nem összekeverni a kettőt. A szövegfelolvasó a szöveges bevitelt hanggá alakítja, így akkor is kapcsolatban maradhatsz a szöveggel, ha közben mást csinálsz. A hangfelismerés ezzel szemben a beszéd elemzését jelenti, például értelmezési vagy azonosítási céllal.

