Microsoft Azure je verejná cloudová platforma s rôznymi službami, ako sú analytika či úložisko. Azure Cognitive Services vo Windows poskytujú syntézu reči z textu (TTS) a prevod hlasu na text (napríklad diktovanie správ ako Siri) v cloude bez potreby znalostí strojového učenia, použiteľné na PC aj Mac.
Hlavným cieľom Microsoft Azure je pomôcť firmám riadiť procesy, riešiť výzvy a dosahovať ciele v odvetviach ako e-commerce, financie a ďalšie. Vďaka podpore open-source technológií poskytuje používateľom nástroje presne podľa ich potrieb. Azure ponúka štyri typy cloudových služieb:
- Infraštruktúra ako služba – IaaS
- Platforma ako služba – PaaS
- Softvér ako služba – SaaS
- Serverless
Pomocou týchto cloudových služieb môžu používatelia vytvárať zdroje potrebné pre chod firmy, napríklad databázy alebo virtuálne stroje (VM). Azure účtuje iba za skutočne využité zdroje mesačne a umožňuje služby kedykoľvek zrušiť – bez skrytých poplatkov a viazanosti.
Azure TTS umožňuje vytvárať aplikácie a služby s realistickým hlasom generovaným vďaka hlbokému učeniu. TTS ponúka výber z rôznych hlasov, štýlov a intonácie podľa značky aj konkrétneho použitia.
Použitie siaha od čítania textu cez chatboty až po ďalšie aplikácie. SSML umožňuje upraviť výslovnosť či riadiť parametre hlasu podľa vašich potrieb. Pri diktovaní môžete používať hlasové príkazy ako „čiarka“, „nový riadok“, „nový odsek“ či „bodka“. Funkcia ponúka aj automatickú interpunkciu a podporuje klávesové skratky.
Niektoré funkcie Azure sú prvých 12 mesiacov zdarma s obmedzeniami a 30-dňovým kreditom na platené služby. Služby však môžu byť drahé – od 29 $ mesačne za podporu pre vývojárov až po 1000 $ mesačne pri priamom supporte. Ceny prémiových balíkov nie sú zverejnené.
Aj keď je Azure pre mnohé aplikácie praktický, existuje viac alternatív. Porovnaním možností si každý ľahšie vyberie správne TTS riešenie podľa vlastných potrieb.
Speechify

Speechify je najlepšie hodnotená TTS aplikácia, ktorá prečíta akýkoľvek text vrátane PDF, webových stránok, Google Docs, učebníc, MS Office a ďalšieho. Je ideálna pre ľudí, ktorým robí čítanie ťažkosti – text pri prednese zároveň zvýrazňuje. Skvelá aj na e-learning, pretože spája vizuálny a sluchový štýl učenia a zlepšuje porozumenie.
Pre tých, ktorí majú problém čítať bežný text, napríklad kvôli ADHD alebo dyslexii, Speechify odstráni fyzickú námahu pri čítaní. Kniha z poličky doma či dokument z pošty sa zmení na hovorené slovo – počúvajte, kedykoľvek vám to vyhovuje.
Prémiový plán Speechify ponúka AI hlas najbližší skutočnému človeku, čítanie textu v angličtine, španielčine a ďalších 27 jazykoch. Vo free verzii je viacero štandardných hlasov. Speechify ponúka widget na prehrávanie, pauzu, výber hlasu či zmenu rýchlosti.
Firmy môžu využiť Speechify API, aby umožnili používateľom počúvať obsah jediným kliknutím. Softvér je zdarma, ak stránka spĺňa určité kritériá a má viac než 1 mil. návštev ročne.
Vďaka integrácii len s 5 riadkami kódu VaaS zvyšuje retenciu zákazníkov, zapojenie a konverzie popri zlepšení dostupnosti. Všetky API integrácie obsahujú prirodzené hlasy Speechify pre viac ako 20 jazykov. Funguje s Chrome, Android, iOS a Speechify – k dispozícii na každom zariadení, vrátane iPhonu a počítača.
Twilio

Twilio je mobilná aplikácia umožňujúca digitálnu komunikáciu cez správy a hlas, ktorá podporuje predaj a zlepšuje výsledky. Možno ju integrovať s CRM systémami a tak budovať dôveru so zákazníkmi.
Twilio ponúka zdroje pre vývojárov – možnosť odosielať a prijímať SMS s minimom kódu. K dispozícii je API dokumentácia aj open-source ukážky kódu. Kanály možno napojiť na SMS proces cez workflow builder Twilio.
Twilio pomáha firmám rýchlo rásť a prispôsobiť sa – novým trhom, objemom alebo kanálom, globálne. Umožňuje posielať SMS zákazníkom po celom svete cez vlastnú telekomunikačnú infraštruktúru. Výzvy so škálovaním tak rieši softvérovým prístupom.
S funkciami syntézy reči (TTS) Twilio jednoducho integruje IVR s realistickým hlasom pre hlasové aplikácie. Twilio Markup Language (TwiML) poskytuje sadu inštrukcií na riadenie akcií Twilio pri prichádzajúcom hovore či SMS.
Twilio ponúka platbu podľa spotreby, objemové zľavy aj zmluvy na mieru. Prémiový support začína na min. 1500 $ mesačne za 24/7 podporu mailom a telefónom. Ceny sú transparentné, na rozdiel od časti konkurencie.
Watson Text-to-Speech

Watson Text-to-Speech mení text na prirodzený hlas v rôznych jazykoch a hlasoch. Virtuálny asistent s AI hlasom môže odpovedať zákazníkom cez hlasové kanály.
API cloud služba mení písaný text na reálny hlas priamo v aplikáciách Watson Assistant. Vaša značka tak môže so zákazníkmi komunikovať v ich natívnom jazyku – vhodné pre ľudí so zdravotným znevýhodnením, vodičov alebo na automatizáciu zákazníckej podpory a skrátenie čakacej doby.
Samoobslužný Watson asistent zvládne bežné úlohy call centra cez telefón a ponúkne príjemný používateľský zážitok. Watson TTS pomáha zákazníkom lepšie pochopiť oznámenia a rýchlejšie vyriešiť bežné problémy prevodom textu na reč.
Plus verzia začína na 149 $ mesačne, špeciálny plán je podľa požiadaviek. IBM Watson je tak dostupnejšou alternatívou k Azure.
Google Cloud Text-to-Speech
Google využíva AI na prepojenie textu a prirodzenej reči cez API, čím zlepšuje zážitok používateľov v aplikáciách.
Noví zákazníci získajú kredit 300 $ na služby TTS. Google TTS môže byť výhodný podľa počtu prevádzaných znakov – platí sa za znak. SSML umožňuje tvorbu vlastného hlasu presne podľa požiadaviek a náročnosti sdelenia.
Okrem SSML v Google Cloud je k dispozícii IVR voice generator na automatickú podporu cez tel. centrum. K dispozícii sú tutoriály v Jave, Go, Pythone aj Node.js. Služba vie tiež prepísať zvuk na text pomocou neurónových sietí.
Zákaznícka skúsenosť sa vylepšuje inteligentnými hlasovými odpoveďami naprieč zariadeniami a aplikáciami a komunikáciu možno prispôsobiť podľa hlasu, jazyka či účelu. Vybrať si môžete zo 40 jazykov a veľkého počtu hlasov.
Nuance Vocalizer

Nuance Vocalizer ponúka aplikáciu s virtuálnym asistentom, ktorý prináša vysokú návratnosť investície. AI asistent pomáha firmám napĺňať očakávania zákazníkov cez efektívnu digitálnu komunikáciu.
Nuance asistent pomáha viacerými funkciami. Preberá až polovicu objemu hovorov zákazníckeho servisu, skracuje priemernú čakaciu dobu a zvyšuje produktivitu agentov. Spokojnosť zákazníkov a NPS skóre rastú spolu s využitím Nuance asistenta.
Implementáciou TTS od Nuance Vocalizer môže značka vytvoriť vlastný „ľudský hlas“ na osobnejšiu komunikáciu so zákazníkmi. K dispozícii je hlas šitý na mieru so špecifickými dialógmi, Nuance podporuje SSML, VXML aj MRCPV2.
Za nižšiu cenu než je priemer ponúka Nuance kompletné VA riešenie za paušál od asi 1000 $ za Vocalizer, no ďalšie služby či údržba môžu celkovú cenu zvýšiť.
ReadSpeaker

ReadSpeaker je TTS engine pre živý hlas v akejkoľvek aplikácii. Umožňuje značkám vytvoriť vlastný hlas pre lepší používateľský zážitok. Je vhodný pre weby, mobilné aplikácie aj e-learning – každý používateľ môže obsah prijímať podľa svojich potrieb.
ReadSpeaker sa označuje ako „priekopnícka hlasová technológia“ s 20-ročnými skúsenosťami. Ponúka 110 hlasov v 55+ jazykoch (francúzština, kantonská čínština, mandarínčina, slovenčina atď.), 15 krajín má lokálnu kanceláriu. ReadSpeaker poskytuje riešenia SaaS, SDK aj API pre stream aj offline audio bez internetu.
TTS od ReadSpeaker rozširuje dosah obsahu na ľudí s čitateľskými či učebnými ťažkosťami. Ako kľúčový nástroj pri e-learningu zvyšuje zapamätanie aj porozumenie informáciám.
ReadSpeaker ponúka cloudové riešenia a podporu podľa potrieb klienta – ceny poskytuje až po kontakte, na základe špecifických požiadaviek.
Amazon Polly

Amazon Polly syntetizuje živý hlas z textu, umožňuje vytvárať služby a aplikácie, ktoré „hovoria“, a je vhodný aj pre nové kategórie produktov. Vďaka prirodzenej reči a výberu z viacerých jazykov je Polly vhodný aj na globálne nasadenie.
Polly ponúka okrem štandardných TTS hlasov aj Neural TTS, ktoré výrazne zlepšujú kvalitu reči rôznymi štýlmi a výrazmi – vrátane špeciálne navrhnutej intonácie pre správy alebo rozprávanie.
Rovnako ako konkurencia dokáže Polly vytvoriť vlastný hlas značky, čím zjednotí marketing nad NTTS hlasom. Zvukové súbory vo formátoch MP3 či OGG sú dostupné offline a bez ďalších poplatkov je možné prehrávať vygenerované audio neobmedzene.
Amazon Polly účtuje používateľom mesačne podľa znakov – štandardné hlasy 4 $/milión znakov, neural 16 $/milión znakov. Ďalšie služby môžu byť spoplatnené navyše.
Acapela VaaS
Voice as a Service (VaaS) znamená všetku hlasovú komunikáciu v cloude. VaaS umožňuje, aby aplikácie čítali text odosielaním na server. 50 hlasov/25 jazykov (ruština, japončina atď.) umožní Acapela VaaS „hovoriť“ za vás v appkách.
Acapela API je možné integrovať s Flashom alebo iným jazykom komunikujúcim cez HTTP. Každý aspekt hlasu možno ovládať: tón, prízvuk, intonáciu a ďalšie parametre.
Acapela ponúka 30-dňové bezplatné testovacie konto a výhodnú cenu – za 12 $ mesačne získate neobmedzené schránky a integráciu produktu.
Speechmorphing
Speechmorphing ponúka hlasovú výzvu – dokážete rozoznať AI od reálneho hlasu? Zo zadania vytvára veľmi kvalitné audio s mimoriadne prirodzenými hlasmi.
Speechmorphing používa NLSS syntézu reči, AI pre konverzáciu umožní firmám lepšie nadviazať kontakt so zákazníkmi. Hlasy sú kontextovo relevantné, tón aj intonáciu možno prispôsobiť jednotnému hlasu značky.
Vďaka viacjazyčným funkciám môžu značky vytvárať multikultúrny zážitok vo viacerých jazykoch a rozšíriť tak svoje produkty po svete. Vhodné pre QSR, médiá aj zábavný priemysel – hranice neurónového TTS sú takmer neobmedzené.
Speechmorphing používa vlastný model cien podľa potrieb klienta – transparentné ceny na webe neuvádza, je potrebné vyžiadať si individuálnu ponuku.
FAQ
Používa Azure aj prevod reči na text?
Microsoft Azure ponúka prevod reči na text na prepis zvukových súborov do textu na akomkoľvek operačnom systéme. S použitím AI rozpozná slová, frázy aj intonáciu. Je dostupný vo viacerých jazykoch, napr. angličtina, španielčina, nemčina a ďalšie. Prepísaný text si môžete stiahnuť do konta Azure.
Je Azure speech-to-text kvalitný?
Azure speech-to-text je vysoko hodnotený a patrí medzi najpokročilejšie možnosti hlasových príkazov a rozpoznávania reči. Algoritmy Azure poskytujú presný prepis aj pri horšej kvalite záznamu.
Analyzuje Azure prepis reči v reálnom čase?
Azure prevádza reč na text v reálnom čase.
Aké je najlepšie API na prevod textu na reč?
Speechify má najpokročilejšiu TTS technológiu – text vždy prečíta nahlas mimoriadne presne. Neustále aktualizácie zaručujú čo najvyššiu kvalitu služby.
Speechify sa ľahko používa. Stačí vložiť text a vybrať hlas. Rýchlosť a hlasitosť si prispôsobíte podľa potrieb – napríklad na audioknihu alebo voiceover k videonávodu.
Je Microsoft Speech API zdarma?
Pre Microsoft Speech API existuje bezplatný plán, ktorý je dostupný na ich stránke.
Je Microsoft text-to-speech zdarma?
Nie. Azure ponúka kredit 200 $ a 12 mesiacov zdarma, potom sa služby fakturujú mesačne.
Čo je Microsoft Dictate?
Microsoft Dictate bol doplnok na rozpoznávanie reči pre Office aplikácie vo verziách pred Windows 10/11: Word, Excel, PowerPoint, Outlook. Umožnil diktovať hlasom namiesto písania. Dictate využíval cloudové rozpoznávanie reči na prevod hovorených slov na text. Dnes je známy ako Windows rozpoznávanie reči.
Je v Azure API na prevod textu na reč?
Azure umožňuje vytvárať aplikácie či služby s využitím AI hlasového generátora na prirodzený rečový výstup zo zadaného textu.
Je TTS vždy zdarma?
Niektoré platformy ponúkajú TTS zdarma, ale mnohé pokročilé alebo komerčné využitia sú viazané na platené predplatné.
Prečo používať hlasové písanie?
Hlasové písanie (speech-to-text, diktovanie) znamená vkladanie textu do počítača alebo mobilu hlasom namiesto písania. Má viacero dôvodov využitia:
- Rýchlejšie a efektívnejšie: Hlasové písanie môže byť rýchlejšie než bežné písanie, najmä pre zdatných rečníkov. Umožňuje rýchlo tvoriť text na dokumenty, e-maily či správy.
- Bez rúk: Písanie hlasom umožní pracovať aj tým, ktorí majú problém s rukami (napr. syndróm karpálneho tunela, artritída). Stačí kliknúť na mikrofón a hovoriť.
- Menšia únava: Odstránenie opakovaného písania znižuje únavu rúk, zápästí a prstov. Výhodné pri dlhodobom písaní na klávesnici.
- Multitasking: Vďaka hlasovému zadávaniu môžete diktovať popri iných činnostiach, napr. pri varení, jazde či domácich prácach.
- Prístupnosť: Zvyšuje dostupnosť pre nevidiacich či dyslektikov. Môžu jednoduchšie interagovať s PC a inými zariadeniami.
- Vyššia produktivita: Hlasové písanie môže zrýchliť tvorbu obsahu – vhodné pre študentov, autorov aj profesionálov.
- Prirodzený jazyk: Systémy často využívajú NLP a strojové učenie na lepšie pochopenie gramatiky a kontextu, čo minimalizuje manuálne opravy.
- Vstup v mobile: Na mobiloch je hlasové zadávanie omnoho rýchlejšie než písanie na malej klávesnici.
- Podpora jazykov: Podporuje viac jazykov, vhodné aj pre viacjazyčných používateľov či jazyky s náročným písaním.
- Personalizácia: Systém sa postupne prispôsobuje vášmu hlasu a slovníku, čím je prepis presnejší. Možno ho trénovať diktovacími príkazmi.
Hlasové písanie ponúka mnoho výhod, nie je však vhodné vždy a pre každého. Presnosť ovplyvňuje hluk, prízvuk či znalosť jazyka – chce to cvik a zvyknúť si na limity aj možnosti tejto technológie. Do budúcna sa môžeme tešiť na jej ďalší vývoj.
Aké sú alternatívy k Azure TTS?
Alternatívy k Azure sú napríklad:
- Twilio
- SoapBox
- Watson Text to Speech
- Google Cloud Text-to-Speech
- Nuance Vocalizer
- ReadSpeaker
- Amazon Polly
- Acapela VaaS
- Speechmorphing
- Speechify

