Generatívna AI a umelá inteligencia prešli poriadny kus cesty. Text na reč je starší pojem, funguje už nejaký čas. Je tu veľa, čo môžeme rozobrať a usporiadať, tak sa na to pozriem zo všetkých strán. Či ste začiatočník alebo profík, toto by vám malo objasniť celé Google Text to Speech API.
Skôr než sa pustíme do hlavnej témy, potrebujeme si stanoviť základné pravidlá. Definujme si pár pojmov a vytvorme pevný základ, na ktorom môžeme stavať.
Rozdelíme si tu dve technológie: text na reč a API, a pozrieme sa aj na to, akú úlohu zohráva Google Cloud.
Poznámka redakcie: Hľadáte najlepšie API na prevod textu na reč? Vyskúšajte skvelo zdokumentované a jednoducho použiteľné API na prevod textu na reč od Speechify.
Text na reč
O tejto téme som písal podrobne, pozrite si môj Čo je text na reč blog a tiež si prejdite syntézu reči, aby ste tému lepšie pochopili. Tieto články idú viac do hĺbky, pokojne ich teraz preskočte. Zhrniem ich v pár vetách.
Text na reč používa technológiu syntézy na premenu slov na reč pomocou AI. Možností využitia je mnoho – od pomoci ľuďom s dyslexiou alebo slabým zrakom až po zvýšenie efektivity pri práci.
API
API znamená Application Programming Interface (aplikačné programové rozhranie). Je to akýsi most medzi dvoma aplikáciami. Ak vyvíjate aplikáciu, ktorá potrebuje funkciu text na reč, nemusíte ju budovať od nuly – stačí sa napojiť na existujúce API na prevod textu na reč.
Vy sa sústredíte na budovanie vlastnej appky a API použijete ako most, cez ktorý do nej pridáte prevod textu na reč.
Google Cloud API
Tu vstupuje do hry Google Cloud. Google vyvinul robustné API na prevod textu na reč, dostupné pre vývojárov v rôznych cenových úrovniach. Vývojár, ktorý potrebuje funkciu text na reč, ju jednoducho získa použitím Google TTS. TTS = text to speech.
Rýchly štart nájdete na Google Cloud Console https://cloud.google.com/. Nájdete tam návody, správu účtu, Wavenet hlasy a ďalšie funkcie.
Google Cloud je cloudová platforma od Googlu, ktorá ponúka množstvo modulárnych služieb. Môžete využiť jednu alebo všetky. Stačí si vytvoriť prístupové kľúče na autentifikáciu – mostík. Väčšina služieb je platená, no často majú aj bezplatný limit.
Google kúpil DeepMind v roku 2014 pre jeho technológiu text na reč a vývoj neurónových sietí. Ak niekde natrafíte na DeepMind, dnes ide o Google DeepMind.
Keď už máme pevný základ, poďme sa ponoriť do Google Cloud Text to Speech API.
Funkcie Google Text to Speech API
Google je technologický líder. Pri TTS API môžete očakávať špičkové funkcie, ktoré sa neustále zlepšujú.
Vysoká vernosť reči
Hlasy Google text na reč patria medzi najlepšie v odvetví. Znejú veľmi prirodzene. TTS je ešte len v začiatkoch – vyhrá ten, kto najlepšie zosyntetizuje reč do čo najľudskejšej podoby.
Výber hlasov
Google ponúka veľmi široký výber hlasov, takže váš projekt nemusí znieť ako ostatné ani ako vaša konkurencia.
Vytvorte si vlastný hlas
Je to podobné ako klonovanie hlasu. Vlastný hlas si vytvoríte nahraním seba alebo inej osoby (s jej súhlasom). Potom tento vzor využijete na čítanie všetkých svojich textov.
Neuronové hlasy
Neuronové hlasy ponúkajú najvyššiu kvalitu v ponuke. Umožňujú aj jednoduchú internacionalizáciu, takže ľahšie oslovíte zahraničné publikum.
Štúdiové hlasy
Štúdiové hlasy sú najvyššia liga rozprávania a znejú profesionálne, ako klasické nahrávky v štúdiu.
Ladenie hlasu
Vyberte si hlas a upravte rýchlosť, výšku a ďalšie parametre, aby ste si výsledný prejav prispôsobili.
Koľko stojí Google Text to Speech API?
Cena závisí od kvality hlasu a dĺžky textu. Čím prirodzenejší hlas, tým vyššia cena. Aj tie najlepšie hlasy sú však stále cenovo pomerne dostupné.
| Typ hlasu | Bezplatne mesačne | Po prekročení bezplatného limitu |
| Neural2 hlasy | 0 – 1 milión bajtov | 16 $ za 1 milión bajtov |
| Polyglot hlasy | 0 – 1 milión bajtov | 16 $ za 1 milión bajtov |
| Štúdiové hlasy | 0 – 100 000 bajtov | 160 $ za 1 milión bajtov |
| Štandardné hlasy | 0 – 4 milióny znakov | 4 $ za 1 milión znakov |
| Wavenet hlasy | 0 – 1 milión znakov | 16 $ za 1 milión znakov |
Aký je rozdiel medzi znakmi a bajtmi?
Ako vidno, cena závisí hlavne od kvality hlasu. Kódovanie a spracovanie audia sa líši podľa úrovne. Pri štandardných hlasoch je cena nižšia a účtuje sa podľa počtu znakov.
Ak má váš projekt 4 milióny znakov, pri štandardných hlasoch vás ich prevod na reč vyjde na 16 $.
Štúdiové hlasy potrebujú viac výkonu, preto sa účtujú podľa bajtov. V niektorých jazykoch, napríklad v japončine, môže jeden znak predstavovať viac bajtov.
Pre presné stanovenie ceny je dôležité poznať jazyk a mať aspoň hrubú predstavu o počte bajtov na znak.
Ako nastaviť svoj projekt Google Cloud Platform Text to Speech API?
- Vytvorte si Google Cloud účet alebo sa prihláste tu
- Vytvorte nový projekt a rozumne ho pomenujte
- Pridajte spôsob platby. Platíte len za to, čo skutočne použijete.
- Vyberte svoj projekt a priraďte ho k účtu so spôsobom platby.
- Aktivujte Text-to-Speech API. Vo vyhľadávaní produktov hore na stránke zadajte "speech".
- Zo zoznamu vyberte Cloud Text-to-Speech API
- Nastavte autentifikáciu pre vývojové prostredie. Postup nájdete v návode pre autentifikáciu Text-to-Speech.
Text-to-Speech si môžete vyskúšať aj bez prepojenia s projektom:
- Vyberte možnosť TRY THIS API.
- Na aktivovanie API pre projekt kliknite na ENABLE.
Pozrite si Google Cloud dokumentáciu pre viac informácií.
Ako zrušiť Text to Speech API
Na deaktiváciu Text-to-Speech API choďte do Google Cloud Platform, kliknite na „Go to APIs overview“ v okne s API. Nájdite Text-to-Speech API, kliknite naň a hore na stránke stlačte „DISABLE API“.
Začnite s Google Text to Speech API
Keď už máte projekt, na prvé kroky môžete použiť príkazový riadok.
gcloud initVytvorte si lokálnu autentifikáciu
gcloud auth application-default loginNainštalujte si klientsku knižnicu. V príklade nižšie je to pre Node.js
npm install --save @google-cloud/text-to-speechGoogle Cloud Text to Speech API podporuje tieto jazyky:
- Go
- Java
- Node.js
- C++
- C#
- PHP
- Python
- Ruby
- TypeScript
- Terraform
- YAML
Ako funguje Google Cloud API?
Všetko sa začína jednoduchým API volaním. V požiadavke pošlete text a späť dostanete zvukový súbor s jeho nahrávkou. V požiadavke si zvolíte hlas, jazyk a ďalšie parametre a API vám následne pošle súbor späť.
Ako nainštalovať a použiť klientsku knižnicu na prevod textu na reč nájdete tu. Ukážky sú pre Node.js, ale môžete použiť aj Python, PHP atď.
const textToSpeech = require('@google-cloud/text-to-speech');
const fs = require('fs');
const util = require('util');
const client = new textToSpeech.TextToSpeechClient();
/**
* TODO(developer): Uncomment the following lines before running the sample.
*/
// const text = 'Text to synthesize, eg. hello';
// const outputFile = 'Local path to save audio file to, e.g. output.mp3';
const request = {
input: {text: text},
voice: {languageCode: 'en-US', ssmlGender: 'FEMALE'},
audioConfig: {audioEncoding: 'MP3'},
};
const [response] = await client.synthesizeSpeech(request);
const writeFile = util.promisify(fs.writeFile);
await writeFile(outputFile, response.audioContent, 'binary');
console.log(`Audio content written to file: ${outputFile}`);A to je všetko. Nastavili ste Google Cloud Text to Speech API a poslali svoju prvú požiadavku na prevod textu na reč. Súbor získate v rôznych formátoch, napríklad OGG alebo MP3.
Spôsoby využitia Google Text to Speech API
Google TTS API má univerzálne využitie naprieč rôznymi odvetviami. Medzi bežné scenáre patria:
- Text na reč pre zrakovo znevýhodnených: Prevod písaného textu na zvuk, ktorý uľahčuje prístup k digitálnym informáciám pre zrakovo postihnutých.
- Automatizované telefónne systémy: TTS na tvorbu prirodzene znejúcich výziev a odpovedí vo voice systémoch zákazníckej podpory.
- Voiceover pre médiá: Generovanie hlasových komentárov pre videá, podcasty a podobne.
- Text na reč pre prekladaný obsah: Prevod preloženého textu na reč na učenie jazykov či pohodlnú konzumáciu obsahu v rôznych jazykoch.
- Pomoc pri čítaní pre dyslektikov: TTS na pomoc ľuďom s dyslexiou a ťažkosťami pri čítaní.
- Hlasová navigácia v aplikáciách: Integrácia TTS do navigácií na poskytovanie hlasových pokynov.
- Text na reč pre vzdelávací obsah: Vylepšenie e-learningu prevodom učebných materiálov na zvuk.
- Syntéza reči v produktivite: TTS v poznámkových alebo úlohových aplikáciách.
- Prirodzený hlas pre virtuálnych asistentov: Asistenti s prirodzeným TTS zlepšujú interakciu a podávanie informácií.
- Zvukové upozornenia a notifikácie: Využitie TTS na zvukové upozornenia alebo hlásenia stavu na IoT zariadeniach.
Najlepšie alternatívy Google Cloud TTS API
K januáru 2022 existuje viacero alternatív ku Google Text-to-Speech API. Ich obľúbenosť aj možnosti sa časom menia. Tu sú niektoré z nich:
- Speechify Text to Speech API: Ide o vývoj API na prevod textu na reč, ktoré poskytne najprirodzenejšie AI hlasy Speechify priamo vývojárom po celom svete. Zarezervujte si miesto.
- Amazon Polly: Služba Amazon Web Services (AWS) s prirodzene znejúcou syntézou reči. Jednoducho sa integruje s ďalšími AWS službami.
- Microsoft Azure Speech Service: Podporuje TTS aj rôzne aplikácie (asistenti, navigácia a ďalšie).
- IBM Watson Text to Speech: Služba od IBM na prevod textu na prirodzenú reč v rôznych hlasoch.
- Nuance Communications: Riešenia pre rozpoznávanie hlasu vrátane TTS, najmä pre zdravotníctvo, automobilový priemysel a zákaznícky servis.
- CereProc: TTS technológia s kvalitnými syntetickými hlasmi (prístupnosť, zábava, komunikácia).
- iSpeech: Cloudová TTS služba s podporou viacerých jazykov a hlasov pre mobilné appky a weby.
- ResponsiveVoice: Jednoduché a cenovo dostupné TTS API pre viac jazykov do webových aplikácií.
- Neospeech: TTS so zameraním na prirodzené hlasy. Používa sa v e-learningu aj zábavnom priemysle.
- ReadSpeaker: Online a offline TTS riešenia pre weby, e-learning a prístupnosť.
- Acapelabox: Cloudové TTS API skupiny Acapela pre viac jazykov a hlasov pre rôzne odvetvia.
Google Text to Speech API – Často kladené otázky
Google má niekoľko úrovní hlasov a väčšina má určitý bezplatný limit. Napríklad štandardné hlasy sú zdarma do 1 milióna bajtov. Potom stoja 16 $ za milión bajtov. Takže áno, je možné ho používať zadarmo s obmedzeným počtom znakov alebo bajtov.
Stačí si vytvoriť účet na https://cloud.google.com/text-to-speech/ a postupovať podľa krokov tam. Postup som podrobne spísal aj v tomto blogu vyššie.
API kľúč získate po prihlásení do Google Cloud účtu, kde si vytvoríte projekt. Po vytvorení projektu si môžete vygenerovať API kľúč.
URL adresa je https://cloud.google.com/text-to-speech/
Technicky neexistuje univerzálna skúšobná doba pre Google Cloud. Každá služba má vlastné podmienky a bezplatné limity.
Nie. Google Cloud Text-to-Speech API potrebuje internetové pripojenie.
Autentifikácia do Google Cloud, vrátane Text-to-Speech API, je možná cez API kľúče, OAuth 2.0 alebo service account. Výber závisí od konkrétneho použitia a typu aplikácie.
Dávam hodnotenie 5 hviezdičiek. Používanie je jednoduché, vyhľadávanie funguje skvelo, cena je v poriadku a celkovo je to výborný produkt.
Google Text-to-Speech API ponúka knižnice pre viaceré programovacie jazyky, vrátane Pythonu. Podporuje aj REST API pre každý jazyk, ktorý dokáže posielať HTTP požiadavky.
Integrácia do Androidu využíva triedu TextToSpeech a volanie API. Podrobný postup nájdete v oficiálnej dokumentácii pre Android vývojárov.
Pri implementácii v JavaScripte posielate HTTP požiadavky na endpoint API. Ide o vytvorenie správnej požiadavky a spracovanie odpovede vo vašom JavaScript kóde. Podrobnosti nájdete v oficiálnej dokumentácii.

