1. Domov
  2. API
  3. Všetko o Google Cloud Text to Speech API
API

Všetko o Google Cloud Text to Speech API

Cliff Weitzman

Cliff Weitzman

CEO/Zakladateľ Speechify

Speechify API ponúka latenciu 300 ms, hlasy v kvalite ľudského hlasu a podporu viac ako 50 jazykov

apple logoApple Design Award 2025
50M+ používateľov

Generatívna AI a umelá inteligencia prešli poriadny kus cesty. Text na reč je starší pojem, funguje už nejaký čas. Je tu veľa, čo môžeme rozobrať a usporiadať, tak sa na to pozriem zo všetkých strán. Či ste začiatočník alebo profík, toto by vám malo objasniť celé Google Text to Speech API.

Skôr než sa pustíme do hlavnej témy, potrebujeme si stanoviť základné pravidlá. Definujme si pár pojmov a vytvorme pevný základ, na ktorom môžeme stavať.

Rozdelíme si tu dve technológie: text na reč a API, a pozrieme sa aj na to, akú úlohu zohráva Google Cloud.

Poznámka redakcie: Hľadáte najlepšie API na prevod textu na reč? Vyskúšajte skvelo zdokumentované a jednoducho použiteľné API na prevod textu na reč od Speechify.

Text na reč

O tejto téme som písal podrobne, pozrite si môj Čo je text na reč blog a tiež si prejdite syntézu reči, aby ste tému lepšie pochopili. Tieto články idú viac do hĺbky, pokojne ich teraz preskočte. Zhrniem ich v pár vetách.

Text na reč používa technológiu syntézy na premenu slov na reč pomocou AI. Možností využitia je mnoho – od pomoci ľuďom s dyslexiou alebo slabým zrakom až po zvýšenie efektivity pri práci.

API

API znamená Application Programming Interface (aplikačné programové rozhranie). Je to akýsi most medzi dvoma aplikáciami. Ak vyvíjate aplikáciu, ktorá potrebuje funkciu text na reč, nemusíte ju budovať od nuly – stačí sa napojiť na existujúce API na prevod textu na reč.

Vy sa sústredíte na budovanie vlastnej appky a API použijete ako most, cez ktorý do nej pridáte prevod textu na reč.

Google Cloud API

Tu vstupuje do hry Google Cloud. Google vyvinul robustné API na prevod textu na reč, dostupné pre vývojárov v rôznych cenových úrovniach. Vývojár, ktorý potrebuje funkciu text na reč, ju jednoducho získa použitím Google TTS. TTS = text to speech.

Rýchly štart nájdete na Google Cloud Console https://cloud.google.com/. Nájdete tam návody, správu účtu, Wavenet hlasy a ďalšie funkcie.

Google Cloud je cloudová platforma od Googlu, ktorá ponúka množstvo modulárnych služieb. Môžete využiť jednu alebo všetky. Stačí si vytvoriť prístupové kľúče na autentifikáciu – mostík. Väčšina služieb je platená, no často majú aj bezplatný limit.

Google kúpil DeepMind v roku 2014 pre jeho technológiu text na reč a vývoj neurónových sietí. Ak niekde natrafíte na DeepMind, dnes ide o Google DeepMind.

Keď už máme pevný základ, poďme sa ponoriť do Google Cloud Text to Speech API.

Funkcie Google Text to Speech API

Google je technologický líder. Pri TTS API môžete očakávať špičkové funkcie, ktoré sa neustále zlepšujú.

Vysoká vernosť reči

Hlasy Google text na reč patria medzi najlepšie v odvetví. Znejú veľmi prirodzene. TTS je ešte len v začiatkoch – vyhrá ten, kto najlepšie zosyntetizuje reč do čo najľudskejšej podoby.

Výber hlasov

Google ponúka veľmi široký výber hlasov, takže váš projekt nemusí znieť ako ostatné ani ako vaša konkurencia.

Vytvorte si vlastný hlas

Je to podobné ako klonovanie hlasu. Vlastný hlas si vytvoríte nahraním seba alebo inej osoby (s jej súhlasom). Potom tento vzor využijete na čítanie všetkých svojich textov.

Neuronové hlasy

Neuronové hlasy ponúkajú najvyššiu kvalitu v ponuke. Umožňujú aj jednoduchú internacionalizáciu, takže ľahšie oslovíte zahraničné publikum.

Štúdiové hlasy

Štúdiové hlasy sú najvyššia liga rozprávania a znejú profesionálne, ako klasické nahrávky v štúdiu.

Ladenie hlasu

Vyberte si hlas a upravte rýchlosť, výšku a ďalšie parametre, aby ste si výsledný prejav prispôsobili.

Koľko stojí Google Text to Speech API?

Cena závisí od kvality hlasu a dĺžky textu. Čím prirodzenejší hlas, tým vyššia cena. Aj tie najlepšie hlasy sú však stále cenovo pomerne dostupné.

Typ hlasuBezplatne mesačnePo prekročení bezplatného limitu
Neural2 hlasy0 – 1 milión bajtov16 $ za 1 milión bajtov
Polyglot hlasy0 – 1 milión bajtov16 $ za 1 milión bajtov
Štúdiové hlasy0 – 100 000 bajtov160 $ za 1 milión bajtov
Štandardné hlasy0 – 4 milióny znakov4 $ za 1 milión znakov
Wavenet hlasy0 – 1 milión znakov16 $ za 1 milión znakov

Aký je rozdiel medzi znakmi a bajtmi?

Ako vidno, cena závisí hlavne od kvality hlasu. Kódovanie a spracovanie audia sa líši podľa úrovne. Pri štandardných hlasoch je cena nižšia a účtuje sa podľa počtu znakov.

Ak má váš projekt 4 milióny znakov, pri štandardných hlasoch vás ich prevod na reč vyjde na 16 $.

Štúdiové hlasy potrebujú viac výkonu, preto sa účtujú podľa bajtov. V niektorých jazykoch, napríklad v japončine, môže jeden znak predstavovať viac bajtov.

Pre presné stanovenie ceny je dôležité poznať jazyk a mať aspoň hrubú predstavu o počte bajtov na znak.

Ako nastaviť svoj projekt Google Cloud Platform Text to Speech API?

  1. Vytvorte si Google Cloud účet alebo sa prihláste tu
  2. Vytvorte nový projekt a rozumne ho pomenujte
  3. Pridajte spôsob platby. Platíte len za to, čo skutočne použijete.
  4. Vyberte svoj projekt a priraďte ho k účtu so spôsobom platby.
  5. Aktivujte Text-to-Speech API. Vo vyhľadávaní produktov hore na stránke zadajte "speech".
  6. Zo zoznamu vyberte Cloud Text-to-Speech API
  7. Nastavte autentifikáciu pre vývojové prostredie. Postup nájdete v návode pre autentifikáciu Text-to-Speech.

Text-to-Speech si môžete vyskúšať aj bez prepojenia s projektom:

  1. Vyberte možnosť TRY THIS API.
  2. Na aktivovanie API pre projekt kliknite na ENABLE.

Pozrite si Google Cloud dokumentáciu pre viac informácií.

Ako zrušiť Text to Speech API

Na deaktiváciu Text-to-Speech API choďte do Google Cloud Platform, kliknite na „Go to APIs overview“ v okne s API. Nájdite Text-to-Speech API, kliknite naň a hore na stránke stlačte „DISABLE API“.

Začnite s Google Text to Speech API

Keď už máte projekt, na prvé kroky môžete použiť príkazový riadok.

gcloud init

Vytvorte si lokálnu autentifikáciu

gcloud auth application-default login

Nainštalujte si klientsku knižnicu. V príklade nižšie je to pre Node.js

npm install --save @google-cloud/text-to-speech

Google Cloud Text to Speech API podporuje tieto jazyky:

  1. Go
  2. Java
  3. Node.js
  4. C++
  5. C#
  6. PHP
  7. Python
  8. Ruby
  9. TypeScript
  10. Terraform
  11. YAML

Ako funguje Google Cloud API?

Všetko sa začína jednoduchým API volaním. V požiadavke pošlete text a späť dostanete zvukový súbor s jeho nahrávkou. V požiadavke si zvolíte hlas, jazyk a ďalšie parametre a API vám následne pošle súbor späť.

Ako nainštalovať a použiť klientsku knižnicu na prevod textu na reč nájdete tu. Ukážky sú pre Node.js, ale môžete použiť aj Python, PHP atď.

const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');

const client = new textToSpeech.TextToSpeechClient();

/**
 * TODO(developer): Uncomment the following lines before running the sample.
 */
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';

const request = {
  input: {text: text},
  voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
  audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);

A to je všetko. Nastavili ste Google Cloud Text to Speech API a poslali svoju prvú požiadavku na prevod textu na reč. Súbor získate v rôznych formátoch, napríklad OGG alebo MP3.

Spôsoby využitia Google Text to Speech API

Google TTS API má univerzálne využitie naprieč rôznymi odvetviami. Medzi bežné scenáre patria:

  1. Text na reč pre zrakovo znevýhodnených: Prevod písaného textu na zvuk, ktorý uľahčuje prístup k digitálnym informáciám pre zrakovo postihnutých.
  2. Automatizované telefónne systémy: TTS na tvorbu prirodzene znejúcich výziev a odpovedí vo voice systémoch zákazníckej podpory.
  3. Voiceover pre médiá: Generovanie hlasových komentárov pre videá, podcasty a podobne.
  4. Text na reč pre prekladaný obsah: Prevod preloženého textu na reč na učenie jazykov či pohodlnú konzumáciu obsahu v rôznych jazykoch.
  5. Pomoc pri čítaní pre dyslektikov: TTS na pomoc ľuďom s dyslexiou a ťažkosťami pri čítaní.
  6. Hlasová navigácia v aplikáciách: Integrácia TTS do navigácií na poskytovanie hlasových pokynov.
  7. Text na reč pre vzdelávací obsah: Vylepšenie e-learningu prevodom učebných materiálov na zvuk.
  8. Syntéza reči v produktivite: TTS v poznámkových alebo úlohových aplikáciách.
  9. Prirodzený hlas pre virtuálnych asistentov: Asistenti s prirodzeným TTS zlepšujú interakciu a podávanie informácií.
  10. Zvukové upozornenia a notifikácie: Využitie TTS na zvukové upozornenia alebo hlásenia stavu na IoT zariadeniach.

Najlepšie alternatívy Google Cloud TTS API

K januáru 2022 existuje viacero alternatív ku Google Text-to-Speech API. Ich obľúbenosť aj možnosti sa časom menia. Tu sú niektoré z nich:

  1. Speechify Text to Speech API: Ide o vývoj API na prevod textu na reč, ktoré poskytne najprirodzenejšie AI hlasy Speechify priamo vývojárom po celom svete. Zarezervujte si miesto.
  2. Amazon Polly: Služba Amazon Web Services (AWS) s prirodzene znejúcou syntézou reči. Jednoducho sa integruje s ďalšími AWS službami.
  3. Microsoft Azure Speech Service: Podporuje TTS aj rôzne aplikácie (asistenti, navigácia a ďalšie).
  4. IBM Watson Text to Speech: Služba od IBM na prevod textu na prirodzenú reč v rôznych hlasoch.
  5. Nuance Communications: Riešenia pre rozpoznávanie hlasu vrátane TTS, najmä pre zdravotníctvo, automobilový priemysel a zákaznícky servis.
  6. CereProc: TTS technológia s kvalitnými syntetickými hlasmi (prístupnosť, zábava, komunikácia).
  7. iSpeech: Cloudová TTS služba s podporou viacerých jazykov a hlasov pre mobilné appky a weby.
  8. ResponsiveVoice: Jednoduché a cenovo dostupné TTS API pre viac jazykov do webových aplikácií.
  9. Neospeech: TTS so zameraním na prirodzené hlasy. Používa sa v e-learningu aj zábavnom priemysle.
  10. ReadSpeaker: Online a offline TTS riešenia pre weby, e-learning a prístupnosť.
  11. Acapelabox: Cloudové TTS API skupiny Acapela pre viac jazykov a hlasov pre rôzne odvetvia.

Google Text to Speech API – Často kladené otázky

Google má niekoľko úrovní hlasov a väčšina má určitý bezplatný limit. Napríklad štandardné hlasy sú zdarma do 1 milióna bajtov. Potom stoja 16 $ za milión bajtov. Takže áno, je možné ho používať zadarmo s obmedzeným počtom znakov alebo bajtov.

Stačí si vytvoriť účet na https://cloud.google.com/text-to-speech/ a postupovať podľa krokov tam. Postup som podrobne spísal aj v tomto blogu vyššie.

API kľúč získate po prihlásení do Google Cloud účtu, kde si vytvoríte projekt. Po vytvorení projektu si môžete vygenerovať API kľúč.

URL adresa je https://cloud.google.com/text-to-speech/

Technicky neexistuje univerzálna skúšobná doba pre Google Cloud. Každá služba má vlastné podmienky a bezplatné limity.

Nie. Google Cloud Text-to-Speech API potrebuje internetové pripojenie.

Autentifikácia do Google Cloud, vrátane Text-to-Speech API, je možná cez API kľúče, OAuth 2.0 alebo service account. Výber závisí od konkrétneho použitia a typu aplikácie.

Dávam hodnotenie 5 hviezdičiek. Používanie je jednoduché, vyhľadávanie funguje skvelo, cena je v poriadku a celkovo je to výborný produkt.

Google Text-to-Speech API ponúka knižnice pre viaceré programovacie jazyky, vrátane Pythonu. Podporuje aj REST API pre každý jazyk, ktorý dokáže posielať HTTP požiadavky.

Integrácia do Androidu využíva triedu TextToSpeech a volanie API. Podrobný postup nájdete v oficiálnej dokumentácii pre Android vývojárov.

Pri implementácii v JavaScripte posielate HTTP požiadavky na endpoint API. Ide o vytvorenie správnej požiadavky a spracovanie odpovede vo vašom JavaScript kóde. Podrobnosti nájdete v oficiálnej dokumentácii.

Získajte rýchly, škálovateľný a pre vývojárov prívetivý prístup k obľúbeným hlasom Speechify cez API

Získať prístup k API
api access banner

Zdieľať tento článok

Cliff Weitzman

Cliff Weitzman

CEO/Zakladateľ Speechify

Cliff Weitzman je zástanca ľudí s dyslexiou a CEO a zakladateľ Speechify, najlepšej aplikácie na prevod textu na reč na svete, s viac než 100 000 päťhviezdičkovými hodnoteniami a prvým miestom v App Store v kategórii Správy a časopisy. V roku 2017 bol zaradený do rebríčka Forbes 30 pod 30 za sprístupňovanie internetu ľuďom s poruchami učenia. Objavil sa v médiách ako EdSurge, Inc., PC Mag, Entrepreneur či Mashable.

speechify logo

O Speechify

#1 čítačka textu na reč

Speechify je popredná svetová platforma na prevod textu na reč, ktorej dôveruje viac ako 50 miliónov používateľov a ktorú podporuje vyše 500 000 päťhviezdičkových recenzií naprieč aplikáciami na prevod textu na reč pre iOS, Android, rozšírenie pre Chrome, webovú aplikáciu a desktopovú aplikáciu pre Mac. V roku 2025 Apple ocenilo Speechify prestížnou cenou Apple Design Award na konferencii WWDC a označilo ho za „kľúčový zdroj, ktorý pomáha ľuďom žiť svoj život“. Speechify ponúka viac ako 1 000 prirodzene znejúcich hlasov v 60+ jazykoch a používa sa takmer v 200 krajinách. Medzi známe hlasy patria Snoop Dogg a Gwyneth Paltrow. Pre tvorcov a firmy Speechify Studio ponúka pokročilé nástroje vrátane generátora AI hlasu, AI klonovania hlasu, AI dabingu a AI meniča hlasu. Speechify zároveň poháňa špičkové produkty pomocou svojho kvalitného a cenovo dostupného API na prevod textu na reč. Objavilo sa v The Wall Street Journal, CNBC, Forbes, TechCrunch a ďalších popredných spravodajských médiách. Speechify je najväčší poskytovateľ prevodu textu na reč na svete. Navštívte speechify.com/news, speechify.com/blog a speechify.com/press a zistite viac.