Minden, amit a Google Cloud Text to Speech API-ról tudnod kell

A generatív MI és a mesterséges intelligencia nagyon messzire jutott. A szövegfelolvasás egy viszonylag régi technológia, már jó ideje elérhető. Sok szempontból meg lehet közelíteni, ezért szétszedem és több nézőpontból is megnézem. Akár kezdő vagy, akár haladó, ez az útmutató áttekinthető képet ad a Google Text to Speech API-ról.

Mielőtt belevágnánk a részletekbe, először rakjuk le az alapokat. Definiáljunk néhány fogalmat, és építsünk egy szilárd kiindulópontot, hogy legyen mire támaszkodnunk.

Elválasztjuk most a két technológiát: a szövegfelolvasást és az API-kat, és megnézzük azt is, ebben mi a Google Cloud szerepe.

Szerkesztői megjegyzés: Vezető szövegfelolvasó API-t keresel? Próbáld ki a Speechify jól dokumentált, könnyen használható szövegfelolvasó API-ját.

Szövegfelolvasás

Sokat írtam már erről a témáról, elolvashatod a Mi az a szövegfelolvasás? című blogomat, illetve részletesebb magyarázatot találsz a beszédszintézisről szóló írásomban, hogy átfogó képet kapj erről a témáról. Ezek mélyebben belemennek a részletekbe, de most nyugodtan átugorhatod őket, pár mondatban összefoglalom a lényeget.

A szövegfelolvasás egy beszédszintézis nevű technológián alapul, amely a szavakat MI által létrehozott beszéddé alakítja. Rengeteg gyakorlati felhasználása van. Segít az olvasási nehézségekkel, például diszlexiával vagy gyenge látással élőknek, de azoknak is hasznos, akik egyszerűen hatékonyabbá szeretnék tenni a mindennapjaikat.

API

Az API jelentése: Application Programming Interface, magyarul alkalmazásprogramozási felület. Lényegében hidat képez két alkalmazás között. Ha például egy olyan alkalmazást fejlesztesz, amely hangos tartalmat igényel és szükség van szövegfelolvasásra, vagy te magad írod meg ezt a funkciót, vagy egyszerűen csatlakozol egy meglévő szövegfelolvasó API-hoz.

Te így az alkalmazásodra fókuszálhatsz, miközben egy harmadik fél API-ját használod hídnak, hogy átvedd a szövegfelolvasó funkciókat, és felolvastasd vele a szövegedet.

Google Cloud API

Itt lép be a képbe a Google Cloud. A Google egy robusztus szövegfelolvasó API-t fejlesztett ki, amely különböző díjszabásokkal érhető el fejlesztők számára. Bármelyik fejlesztő, aki egyedi vagy webes alkalmazáshoz keres szövegfelolvasó funkciót, könnyen áthidalhatja ezt a rést a Google TTS szolgáltatásával. A TTS jelentése: Text to Speech, azaz szövegfelolvasás.

A gyors kezdéshez keresd fel a Google Cloud Konzolt itt: https://cloud.google.com/. Találsz oktatóanyagokat, kezelheted a szolgáltatásfiókodat, elérheted a wavenet hangokat és még sok minden mást.

A Google Cloud maga a Google felhőalapú platformja, amely rengeteg moduláris szolgáltatást kínál. Igény szerint egyet, többet vagy akár az összes szolgáltatást is használhatod. Mindössze hozzáférési kulcsokat kell létrehoznod az egyes API-k hitelesítéséhez – ez maga a híd. A legtöbb, ha nem az összes szolgáltatás fizetős, bár lehetnek ingyenes keretek is.

A Google 2014-ben vásárolta meg a DeepMindot a szövegfelolvasó technológiájáért és a neurális hálózatok fejlesztéséért. Tehát ha a DeepMind nevével találkozol, ma már Google DeepMind néven fut, és a Google-höz tartozik.

Most, hogy már biztos alapokon állunk, merüljünk bele a Google Cloud Text to Speech API részleteibe.

A Google Text to Speech API főbb szolgáltatásai

A Google világszinten piacvezető technológiai cég, ez vitathatatlan. Amikor a TTS API-járól van szó, világszínvonalú képességekre számíthatsz, amelyek folyamatosan fejlődnek.

Kiemelkedő hangminőség

A Google szövegfelolvasó hangjai a legjobbak közé tartoznak az iparágban. Nagyon emberközeli hangzásúak, természetes hanglejtéssel. A TTS még viszonylag korai fejlődési szakaszban jár, és aki a legjobban képes az emberi hangzás szintézisére, az viszi el a pálmát.

Hangválaszték

A Google állítása szerint náluk érhető el az egyik legszélesebb hangválaszték, így a projekted nem fog ugyanolyanul szólni, mint az ezer másik alkalmazás, vagy – ami még rosszabb – a konkurenciád appja.

Saját hang létrehozása

Ez már a hang klónozási technológiák határát súrolja. Rögzítheted a saját vagy más (hozzájárulással!) hangját, és ezt a mintát használhatod a szövegfelolvasáshoz.

Neurális hangok

A neurális hangok a választék legjobb minőségű hangjai. Ezeket a hangokat akár többnyelvűvé is lehet tenni, hogy könnyebben bővítsd a nemzetközi közönségedet.

Stúdió minőségű hangok

A stúdióhangok jelentik a legmagasabb minőségi szintet, és tényleg olyan profin szólnak, mintha hagyományos módon, stúdióban rögzítették volna őket.

Hangok testreszabása

Válassz egy hangot, majd állítsd a sebességet, a hangmagasságot és más paramétereket, hogy teljesen személyre szabd a beszéd hangszínét.

Mennyibe kerül a Google Text to Speech API?

Minden a hangminőségen és a szöveg hosszán múlik. Minél természetesebben szeretnéd, hogy megszólaljon a hang, annál drágább lesz – de a drágaság relatív fogalom. Még a legmagasabb minőségű hangok is viszonylag olcsók.

Hangtípus	Havonta ingyenes	Ingyenes keret elérését követően
Neural2 hangok	0-tól 1 millió bájtig	16 USD minden újabb millió bájt után
Polyglot hangok	0-tól 1 millió bájtig	16 USD minden újabb millió bájt után
Stúdió hangok	0-tól 100 000 bájtig	160 USD minden újabb millió bájt után
Standard hangok	0-tól 4 millió karakterig	4 USD minden újabb millió karakter után
Wavenet hangok	0-tól 1 millió karakterig	16 USD minden újabb millió karakter után

Mi a különbség a karakterek és a bájtok között?

Ahogy láthatod, az árak jelentősen eltérnek a hangok minőségétől függően. A szöveg hanggá alakításához szükséges hangkódolás és feldolgozás rétegenként változik. Az alacsonyabb minőségű, például standard hangoknál az ár alacsonyabb, és karakterek alapján számítják.

Ez azt jelenti, hogy ha a projektedben 4 millió karakter van, akkor 16 USD-be kerül majd ezeknek a karaktereknek a standard hangokkal történő szintetizálása.

A stúdióhangok esetén viszont nagyobb feldolgozási teljesítmény szükséges, ezért itt bájtok alapján számolnak. Egyes nyelvekben, például a japánban, egyetlen karakter akár több bájtból is állhat.

A legpontosabb árazás érdekében fontos tudni, hogy melyik nyelvet használod, és hogy nagyjából hány bájtra jut egy karakter – ezt érdemes előre megbecsülni.

Hogyan állítsd be Google Cloud Platform Text to Speech API projektedet?

Hozz létre Google Cloud fiókot, vagy jelentkezz be ezen az oldalon
Hozz létre új projektet, és nevezd el beszédesen
Adj hozzá fizetési módot. Csak a tényleges használat után kell fizetni.
Ezután válaszd ki a projektedet, és rendeld hozzá egy fizetési fiókhoz.
Aktiváld a Text-to-Speech API-t. Menj a felső keresősávba, és írd be, hogy "speech".
A találatok közül válaszd ki a Cloud Text-to-Speech API-t.
Állítsd be a fejlesztési környezeted hitelesítését. Útmutató: Set up authentication for Text-to-Speech.

Szövegfelolvasó funkciót projekt nélkül is kipróbálhatsz:

Válaszd a PRÓBÁLD KI AZ API-T (TRY THIS API) lehetőséget.
Az API engedélyezéséhez kattints az ENABLE (ENGEDÉLYEZÉS) gombra.

Nézd meg a Google Cloud dokumentációját, ha további segítségre van szükséged.

Hogyan lehet letiltani a Text to Speech API-t

A Text-to-Speech API deaktiválásához lépj be a Google Cloud Platform kezelőfelületére, majd kattints az "Go to APIs overview" (API-k áttekintése) linkre az API-k dobozban. Keresd meg a Text-to-Speech API-t, kattints rá, majd válaszd a felső menüsorban a "DISABLE API" gombot.

Kezdd el használni a Google Text to Speech API-t

Most, hogy a projekt készen áll, akár parancssorból is nekiláthatsz.

gcloud init

Helyi hitelesítés létrehozása

gcloud auth application-default login

Most már telepíthetsz klienskönyvtárat. Ebben a példában a Node.js-t mutatjuk be.

npm install --save @google-cloud/text-to-speech

A Google Cloud Text to Speech API ezeket a nyelveket támogatja:

Go
Java
Node.js
C++
C#
PHP
Python
Ruby
TypeScript
Terraform
YAML

Hogyan működik a Google Cloud API?

Az egész egy egyszerű API-hívással kezdődik. Elküldöd a szövegedet egy kérésben, majd visszakapsz egy hangfájlt a beszélt változattal. A kérésben megadhatsz különféle beállításokat is: hangot, nyelvet és így tovább, ezután az API visszaküldi az előállított hangfájlt.

Az alábbi linken megtanulhatod, hogyan kell telepíteni és használni a szövegfelolvasó klienskönyvtárakat: itt. A példák Node.js-re szólnak, de természetesen választhatsz Pythont, PHP-t vagy bármely más támogatott nyelvet is – amit csak szeretnél.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

És ennyi az egész. Beállítottad a Google Cloud Text to Speech API-t, és elküldted az első kérésedet, hogy szöveget hanggá alakíts. A fájlt többféle formátumban is visszakaphatod: az OGG-től egészen az MP3-ig.

Így használhatod a Google Text to Speech API-t

A Google Text-to-Speech (TTS) API számos iparágban kínál rugalmas megoldást a legkülönfélébb felhasználási esetekre. Néhány tipikus példa:

Szövegfelolvasás látássérült felhasználóknak: Alkalmazásokban az írott tartalom hangos megszólaltatása, hogy a digitális információkhoz a látássérültek is könnyen hozzáférhessenek.
Automatizált telefonos rendszerek: TTS használata természetes hangzású instrukciókhoz és válaszokhoz ügyfélszolgálati vagy információs vonalak interaktív hangmenürendszereiben.
Hangalámondás médiaanyagokhoz: Videók, podcastok vagy egyéb multimédiás anyagok természetes hangzású narrációjának előállítása a felhasználói élmény fokozásáért.
Szövegfelolvasás fordított tartalomhoz: Fordított szövegek felolvasása a nyelvtanulás, a nemzetközi kommunikáció vagy a soknyelvű tartalomfogyasztás támogatására.
Olvasási támogatás diszlexiásoknak: TTS funkcióval segítve a diszlexiával vagy egyéb olvasási nehézséggel élőket az írott szövegek befogadásában.
Hangos navigáció alkalmazásokban: TTS integráció navigációs appokban, hogy a felhasználók hangos útmutatásokat vagy helyalapú információkat kapjanak.
Szövegfelolvasás oktatási tartalomhoz: E-learning tananyagok hallhatóvá tétele a könnyebb megértés és nagyobb elköteleződés érdekében.
Beszédszintézis produktivitási alkalmazásokban: Jegyzetelő vagy feladatkezelő alkalmazásokban TTS használata hangos visszajelzéshez vagy információlekérdezéshez.
Természetes hangú virtuális asszisztensek: Természetes hangzású TTS-sel működő asszisztensek bevetése a felhasználói interakciók javításához, információk párbeszédszerű közléséhez.
Hangos értesítések és figyelmeztetések: TTS-alapú hallható riasztások, értesítések, IoT-eszközök állapotfrissítései a felhasználói tudatosság növelésére.

A Google Cloud TTS API legjobb alternatívái

Legutóbbi (2022. januári) tudásom szerint több alternatíva is létezik a Google Text-to-Speech API-ra. Fontos tudnod, hogy ezen szolgáltatások népszerűsége és tudása azóta változhatott. Íme néhány figyelemre méltó alternatíva:

Speechify Text to Speech API: Örömmel jelentjük be egy új szövegfelolvasó API fejlesztését, amely a Speechify legtermészetesebb és legkedveltebb MI hangjait teszi közvetlenül elérhetővé fejlesztők számára világszerte. Foglalj helyet még ma.
Amazon Polly: Az Amazon Web Services (AWS) szolgáltatása, a Polly természetes hangú beszédszintézist nyújt számos nyelven és hangon. Jól integrálható az egyéb AWS szolgáltatásokkal.
Microsoft Azure Speech Service: Az Azure Speech Service részeként elérhető szövegfelolvasás több alkalmazástípust is támogat, például hangasszisztenseket, navigációs rendszereket stb.
IBM Watson Text to Speech: Az IBM Watson szövegfelolvasó szolgáltatása lehetővé teszi fejlesztők számára, hogy különféle hangokon alakítsák át az írott szöveget természetes hangzású beszéddé.
Nuance Communications: A Nuance számos beszéd- és hangfelismerési megoldást kínál, köztük szövegfelolvasást is, például egészségügyi, autóipari vagy ügyfélszolgálati alkalmazásokhoz.
CereProc: A CereProc szövegfelolvasó technológiai cég, amely minőségi szintetikus hangokat kínál akadálymentességhez, szórakoztatáshoz és kommunikációhoz.
iSpeech: Az iSpeech felhőalapú szövegfelolvasó szolgáltatásokat biztosít több nyelven és hangon. Mobilalkalmazásokhoz és weboldalakhoz egyaránt használható.
ResponsiveVoice: A ResponsiveVoice egyszerű és pénztárcabarát szövegfelolvasó API, többnyelvű támogatással és webes alkalmazásokhoz.
Neospeech: A Neospeech természetes hangzású hangokkal kínál szövegfelolvasást, amelyet például e-learningben és szórakoztatásban használnak.
ReadSpeaker: A ReadSpeaker online és offline szövegfelolvasó megoldásokat kínál többféle felhasználásra – weboldalakhoz, e-learninghez, akadálymentesítéshez.
Acapelabox: Az Acapela Group felhőalapú szövegfelolvasó API-ja, az Acapelabox, amely több nyelvet és hangot támogat a legkülönfélébb iparági igényekhez.

Google Text to Speech API GYIK

A Google többféle hangszintet kínál, és szinte mindegyikhez tartozik ingyenes keret. Például a standard hangok az első millió bájtig ingyenesek. Utána 16 USD minden újabb millió bájt után. Tehát igen, egy bizonyos karakter- vagy bájtmennyiségig ingyenesen használható.

Egyszerűen regisztrálj a https://cloud.google.com/text-to-speech/ oldalon, majd kövesd az ott leírt lépéseket. A folyamatot fentebb ebben a blogban is részletesen bemutattam.

Google Text-to-Speech API kulcsot úgy szerezhetsz, hogy bejelentkezel a Google Cloud fiókodba, majd létrehozol egy projektet. A projekt létrehozása után generálhatsz hozzá API-kulcsot.

A Google Text to Speech API URL-je: https://cloud.google.com/text-to-speech/

Technikailag nincs konkrét, egységes ingyenes próbaidőszak a Google Cloudnál. A Google Cloudon belül többféle szolgáltatás érhető el, és mindegyikhez külön feltételek és ingyenes keretek tartozhatnak.

Nem. A Google Cloud szövegfelolvasó API használatához mindig szükség van internetkapcsolatra.

A Google Cloud szolgáltatásaihoz, köztük a Text-to-Speech API-hoz, lehet API-kulccsal, OAuth 2.0-val vagy szolgáltatásfiókkal hitelesíteni. A megfelelő hitelesítési mód az adott használati esettől és alkalmazástól függ.

5 csillagra értékelem. Könnyen használható, a kereső funkció nagyszerű, és ezt használom a leggyakrabban. Az árképzés korrekt, összességében kiváló termék.

A Google Text-to-Speech API-hoz több programnyelven is elérhetők klienskönyvtárak, például Pythonhoz is. Emellett támogatja a REST API-hívásokat is, így gyakorlatilag bármilyen nyelvvel működik, amely képes HTTP-kérések küldésére.

A Google Text-to-Speech API integrálása Android appba a TextToSpeech osztály használatával és API-hívásokkal történik. Részletes, lépésről lépésre követhető útmutatót találsz az Android fejlesztők hivatalos dokumentációjában.

A Google Text-to-Speech API-t JavaScriptes alkalmazásban HTTP-kérésekkel tudod elérni. Ehhez össze kell állítani a megfelelő API-kérést, majd a választ a JavaScript kódban feldolgozni. A részleteket megtalálod a hivatalos dokumentációban.

Speechify a világ vezető szövegfelolvasó platformja, amelyben több mint 50 millió felhasználó bízik, és több mint 500 000 ötcsillagos értékeléssel büszkélkedhet különböző szövegfelolvasó felületein: iOS, Android, Chrome-bővítmény, webapp és Mac asztali alkalmazásokban. 2025-ben az Apple elismerte a Speechify-t a rangos Apple Design Díjjal a WWDC-n, és úgy nyilatkozott róla: „elengedhetetlen erőforrás, amely segíti az embereket az életükben.” A Speechify több mint 1000 természetes hangzású hangot kínál 60+ nyelven, és közel 200 országban használják. Hírességek hangjai, mint Snoop Dogg, Mr. Beast és Gwyneth Paltrow is elérhetők. Alkotóknak és vállalkozásoknak a Speechify Studio fejlett eszközöket kínál, köztük az AI Hanggenerátort, AI Hang Klónozást, AI Szinkront, valamint az AI Hangmódosítót. A Speechify prémium, költséghatékony szövegfelolvasó API-jával vezető termékeket is meghajt. Szerepelt a The Wall Street Journalban, a CNBC-n, a Forbes-ban, a TechCrunch-ban és más nagy híroldalakon, a Speechify a világ legnagyobb szövegfelolvasó szolgáltatója. Látogass el a speechify.com/news, speechify.com/blog vagy speechify.com/press oldalra a bővebb információkért.