1. Kezdőlap
  2. API
  3. Hogyan támogatja a Speechify Text to Speech API az SSML-t
API

Hogyan támogatja a Speechify Text to Speech API az SSML-t

Cliff Weitzman

Cliff Weitzman

A Speechify vezérigazgatója és alapítója

A Speechify API 300 ms reakcióidővel, emberszerű hangokkal és 50+ nyelven nyújt megoldást

apple logo2025 Apple Design Díj
50M+ felhasználó

Speechify Text to Speech (TTS) API az egyik legsokoldalúbb és legjobban személyre szabható beszédtechnológia, amely rendkívül erős támogatást nyújt a Speech Synthesis Markup Language (SSML) használatához. Ez a fejlett funkcionalitás lehetővé teszi a fejlesztők számára, hogy közvetlenül a kódon keresztül, hangzásban finoman beállított vokális előadásokat hozzanak létre, így a digitális szöveget pontos intonációval, ritmussal és érzelmi mélységgel ruházzák fel. Ebben a cikkben bemutatjuk, hogyan használja a Speechify Text to Speech API az SSML-t arra, hogy a sima szöveget gazdag, kifejező beszéddé alakítsa, és ezzel lehetővé tegye a különböző szektorok számára, hogy természetesebb és lebilincselőbb felhasználói élményt nyújtsanak.

A Speechify Text to Speech API áttekintése

Speechify Text to Speech API egy rendkívül hatékony eszköz, amely az írott szöveget élethű beszéddé alakítja. Fejlett neurális hálózatokat és gépi tanulási technológiákat alkalmazva természetes és magával ragadó beszédet generál. Számos nyelvet és nyelvjárást támogat, különböző férfi és női hangokkal, így széles felhasználói kör igényeit elégítheti ki. Ez a rugalmasság teszi a Speechify Text to Speech API-t kiváló választássá azoknak a fejlesztőknek, akik alkalmazásokba, weboldalakba vagy interaktív szolgáltatásokba szeretnék beépíteni a felolvasó funkciót, biztosítva ezzel a zökkenőmentes, befogadó felhasználói élményt.

Mi az az SSML?

Speech Synthesis Markup Language (SSML) egy alapvető, XML-alapú jelölőnyelv, amelyet a fejlesztők arra használnak, hogy meghatározzák, a text to speech rendszerek miként alakítsák át az írott szöveget beszédhanggá. Az SSML lehetővé teszi a beszéd olyan jellemzőinek, mint a hangmagasság, sebesség, hangerő és kiejtés pontos beállítását, így valóban emberi intonáció és ritmus érhető el. Ez a technológia különösen hasznos olyan helyzetekben, ahol a beszéd hangulata és árnyaltsága kulcsfontosságú a hatékony kommunikációhoz, például oktatási tartalmak, interaktív válaszok vagy történetmesélés esetén.

Az SSML szerepe a szövegfelolvasás továbbfejlesztésében

Az SSML integrációja új szintre emeli a szövegfelolvasó technológiát, mivel lehetőséget ad a generált beszéd kifinomult módosítására, amit az egyszerű TTS rendszerek nem tudnak. Így a felolvasás természetesebb párbeszédfolyamatokat tesz lehetővé, és a beszédkimenet testreszabhatóvá válik, például drámai hatású szünetekkel vagy a tempó hallgatóhoz igazításával. Az SSML szerepe a TTS technológiában mérföldkő a számítógépes és emberi beszéd közötti szakadék áthidalásában, amely által a digitális interakciók érthetőbbé és befogadhatóbbá válnak.

Hogyan támogatja a Speechify az SSML-t?

Speechify Text to Speech API elkötelezett a kiváló hangélmény biztosítása mellett, ezért támogatja az SSML használatát, hogy gazdagabbá tegye a szövegfelolvasás folyamatát. Az SSML alkalmazásával a fejlesztők még pontosabban szabhatják személyre a hangkimenetet, hogy az adott projekt speciális igényeihez igazodjon. Ez magában foglalja a beszéd dinamikájának, például az intonációnak és hangsúlyoknak az igazítását is, amelyek elengedhetetlenek a jelentés és érzelem átadásában. A Speechify Text to Speech API SSML képességei garantálják, hogy a végfelhasználók kimagasló minőségű, tudatosan megtervezett hangélményt kapjanak, amely jelentősen javítja az alkalmazás használhatóságát és élményét.

Az SSML alkalmazásának előnyei a Speechify-ban

Az SSML használata a Speechify Text to Speech API-val számos előnnyel jár, többek között: 

  • Testreszabás: Az SSML lehetővé teszi a beszédkimenet részletes igazítását az alkalmazás céljához vagy kontextusához, így valóban személyre szabott felhasználói élményt nyújt.
  • Fokozott felhasználói elkötelezettség: Az SSML dinamikus, jól érthető és kellemes hanggal vonja be a felhasználókat.
  • A hozzáférhetőség javítása: Az SSML a text to speech funkcióval együtt mindenki számára elérhetőbbé és használhatóbbá teszi a technológiát, kiemelten figyelve a fogyatékkal élőkre.
  • Hatékonyságnövelés: Az SSML nagyban javítja az alkalmazásokon belüli kommunikáció hatékonyságát, ahol elengedhetetlen a hangminőség és az érthetőség.

A Speechify Text to Speech API SSML-jének alapjai 

Speechify Text to Speech API beépítette a Speech Synthesis Markup Language hatékony eszköztárát, hogy a beszédkimenetet még életszerűbbé és izgalmasabbá tegye. Ezeknek az SSML technikáknak az elsajátításával jelentősen növelhető a szövegfelolvasó alkalmazások kifejezőereje és hatékonysága. Legyen szó akadálymentesítésről, szórakoztatásról vagy oktatásról, az SSML segítségével a digitális interakciók emberibbé és élvezetesebbé válnak. Az alapok a következők:

Speciális karakterek SSML-ben

Az SSML kód helyes értelmezése érdekében bizonyos karaktereket el kell kerülni (escape-elni) a szövegben, hogy ne keveredjenek össze a jelölőnyelv szintaxisával. Az alábbiakban néhány gyakori karakter és azok escape-elt megfelelői találhatóak:

  • Ampersand (&) → &
  • Nagyobb jel (>) → >
  • Kisebb jel (<) → &lt;
  • Idézőjel (") → &quot;
  • Aposztróf (') → &apos;

Példa: Egy sor speciális karakter átírása:

const escapeSSMLChars = (text: string) =>

  text

    .replaceAll('&', '&amp;')

    .replaceAll('<', '&lt;')

    .replaceAll('>', '&gt;')

    .replaceAll('"', '&quot;')

    .replaceAll('\'', '&apos;')

Például az alábbi szöveg átalakítása: Some "text" with 5 < 6 & 4 > 8 in it eredménye: <speak>Some &quot;text&quot; with 5 &lt; 6 &amp; 4 &gt; 8 in it</speak>

Beszéd expresszivitása

SSML segítségével a beszéd hangmagassága, sebessége és hangerőssége is beállítható, ami gazdagabb hallásélményt nyújt:

  1. Hangmagasság: A hang tónusa az extra mélytől (x-low) az extra magasig (x-high) állítható, vagy százalékkal is finomhangolható.
  2. Sebesség: Állítható a beszéd tempója a nagyon lassútól (x-slow) a nagyon gyorsig (x-fast), vagy százalékos értékkel is szabályozható a pontosság érdekében.
  3. Hangerő: A néma hangtól (silent) az extra hangosig (x-loud) állítható, decibelben vagy százalékban kifejezve, hogy illeszkedjen a beszédkörnyezethez.

Példa:

<speak>

    Ez a normál beszédminta.

    <prosody pitch="high" rate="fast" volume="+20%">

        Most magasabb hangon, gyorsabban és hangosabban beszélek!

    </prosody>

    Vissza a normál beszédmintához.

</speak>

Szünetek és hangsúly a beszédben

SSML tagek, mint a <break> és <emphasis> elengedhetetlenek ahhoz, hogy a beszéd természetesebbnek és kifejezőbbnek hasson:

  • Break: Meghatározott hosszúságú vagy erősségű szüneteket illeszthetsz be, hogy kiemelj vagy elválassz egyes részeket a beszédben.
  • Emphasis: Egyes szavak hangsúlyát növelheted vagy csökkentheted, hogy érzelmet vagy fontosságot közvetíts, ezáltal fokozva a hallgató figyelmét.

<speak>

    Néha hasznos lehet hosszabb szünetet tenni a mondat végén.

    <break strength="medium" />

    Vagy <break time="100ms" /> néha a <break time="1s" /> mondat közepén.

</speak>

Haladó beszédvezérlés

A Speechify saját tag-et is kínál, a <speechify:style>-t, melynek segítségével módosítható a hang érzelme és ritmusa, így a beszéd még életszerűbb és hatásosabb lesz.

Példa:

<speak>

    <speechify:style emotion="angry" cadence="fast">

        Meddig kérdezheted még ezt tőlem?

    </speechify:style>

</speak>

SSML implementálása Speechify-val

A fejlesztők az SSML-t a Speechify API-val az alábbi lépések szerint integrálhatják:

  1. Környezet előkészítése: Állítsd be a fejlesztői környezetedet HTTP kérések kezelésére.
  2. API authentikáció: Szerezz be API-kulcsot a Speechify-tól, és add hozzá a kérés fejlécéhez.
  3. SSML tartalom létrehozása: Írd meg az alkalmazásod igényeihez igazított SSML-szkriptet.
  4. API kérés küldése: Az SSML-szkriptet ágyazd egy POST kérésbe, és küldd el a Speechify API végpontjára.
  5. Válasz feldolgozása: Fogadd és kezeld a hangkimenetet, ellenőrizve, hogy megfelel-e az elvárásoknak.

Felhasználási területek a Speechify Text to Speech API SSML-jére

A Speechify Text to Speech API SSML képességei kulcsfontosságúak a beszéd testreszabásában, hogy megfeleljenek a különböző igényeknek és kontextusoknak, alapjaiban változtatva meg a digitális kommunikáció hangzásvilágát. Íme néhány példa arra, milyen sokrétűen alkalmazható az SSML a Speechify API-ban különböző alkalmazási területeken:

  1. Akadálymentesítés: Az SSML elengedhetetlen az olyan technológiák kialakításához, amelyek segítséget nyújtanak látás- vagy olvasási nehézségekkel élőknek.
  2. E-learning platformok: Az SSML az oktatási tartalmakat változatos hangszínekkel és hangsúlyokkal teszi élvezetesebbé.
  3. Virtuális asszisztensek: Az SSML a virtuális interakciókat emberközelibbé teszi, fokozva a felhasználói elégedettséget.
  4. Hangoskönyvek: Az SSML különböző hangokat és érzelmi árnyalatokat alkalmazva kelt életre történeteket.
  5. Ügyfélszolgálati chatbotok: Az SSML személyre szabott válaszokkal világosabb, barátságosabb kommunikációt tesz lehetővé, csökkentve a félreértéseket és növelve a szolgáltatás minőségét.
  6. Nyelv tanuló eszközök: Az SSML a nyelvtanulásban segíti a kiejtés és a hallás utáni értés fejlesztését.
  7. Nyilvános bemondások: Az SSML gondoskodik róla, hogy az információk zajos vagy nyilvános helyeken is érthetően hangozzanak el.
  8. Videójátékok: Az SSML dinamikus párbeszédekkel mélyíti a karakterek személyiségét.
  9. Podcast gyártás: Az SSML változatos, figyelemfelkeltő hanganyagok előállítását teszi lehetővé.
  10. Egészségügyi kommunikáció: Az SSML nyugodt és megnyugtató hangon segíti a páciensekkel való kommunikációt.
  11. Navigációs rendszerek: Az SSML kiemeli és jól érthetővé teszi a fontos iránymutatásokat.
  12. Telefónia rendszerek: Az SSML természetes hangzással javítja az IVR rendszerek hangélményét.
  13. Multimédiás prezentációk: Az SSML profi hangalámondással emeli a prezentációk színvonalát.
  14. Okosotthon: Az SSML még természetesebb és intuitívabb hangvezérlést biztosít.

Legjobb SSML gyakorlatok fejlesztők számára 

Akár interaktív hangválaszokat, hangoskönyveket vagy virtuális asszisztenseket készítesz, az SSML helyes használata jelentős mértékben növeli a beszédszintézis projektek minőségét és hatékonyságát. Íme néhány legjobb gyakorlat fejlesztők számára:

  • Kísérletezz különböző SSML tagekkel az optimális beállítás megtalálásához.
  • Folyamatosan frissítsd és finomhangold az SSML szkripteket a felhasználói visszajelzések alapján, hogy javuljon a beszédkimenet minősége.
  • Győződj meg róla, hogy az SSML tagek helyesen vannak egymásba ágyazva, és megfelelnek az XML-szabványoknak, így elkerülhetőek a feldolgozási hibák.

Összegzés

Az SSML kifinomult lehetőségeinek támogatásával a Speechify lehetővé teszi a fejlesztők számára, hogy gazdagabb, emberibb beszédélményt hozzanak létre különféle alkalmazásokban. Akár a hangmagasság, a sebesség és a hangerő precíz irányításáról van szó, akár fejlett tagek használatáról érzelmi vagy ritmikai finomhangolásra, az API azt biztosítja, hogy minden kimondott szó ne csak hallható, hanem átélhető is legyen. Az SSML és a Speechify robusztus TTS technológiájának integrációja nemcsak kiszélesíti a hangalapú alkalmazások lehetőségeit, hanem növeli a digitális tartalmak elérhetőségét és akadálymentesítését is, így megkerülhetetlen eszköz a fejlesztők számára, akik innovatív, beszéddel működő digitális interakciókat szeretnének létrehozni.

Gyakori kérdések (GYIK)

Támogatja a Speechify Text to Speech API az SSML-t?

Igen, a Speechify Text to Speech API teljes mértékben támogatja a Speech Synthesis Markup Language (SSML) használatát, ezáltal kifejezőbbé és személyre szabottabbá teszi a hangkimenetet.

Mit jelent az SSML rövidítés? 

SSML jelentése: Speech Synthesis Markup Language, egy szabványos jelölőnyelv, amellyel a fejlesztők szabályozhatják a szintetikus beszéd hangmagasságát, sebességét és hangszínét.

Milyen előnyökkel jár az SSML a szövegfelolvasásban? 

Az SSML segítségével a szövegfelolvasás pontosan irányítható, így a beszéd természetesebb, és jobban igazítható a felhasználói és kontextusbeli igényekhez.

Miért fontos az SSML? 

Az SSML fontossága abban rejlik, hogy árnyalt vezérlést biztosít a mesterséges beszéd felett, így javítja a beszéd világosságát és vonzerejét számos különféle alkalmazásban.

Hol tudok többet megtudni a Speechify Text to Speech API SSML-jéről?

További információkat a Speechify Text to Speech API SSML képességeiről és azok implementálásáról a hivatalos Speechify API dokumentációban és a weboldalon található forrásokban találsz.

A Speechify népszerű hangjai gyors, skálázható és fejlesztőbarát API-n keresztül érhetők el

API-hozzáférés igénylése
api access banner

Oszd meg a cikket

Cliff Weitzman

Cliff Weitzman

A Speechify vezérigazgatója és alapítója

Cliff Weitzman a diszlexiások szószólója, valamint a Speechify vezérigazgatója és alapítója – ez a világ vezető szövegfelolvasó alkalmazása, több mint 100 000 ötcsillagos értékeléssel, és első helyezéssel az App Store Hírek & Magazinok kategóriájában. 2017-ben Weitzmant beválasztották a Forbes 30 év alattiak listájára azért a munkájáért, amellyel az internetet hozzáférhetőbbé tette a tanulási nehézségekkel élők számára. Cliff Weitzman szerepelt többek között az EdSurge, az Inc., a PC Mag, az Entrepreneur és a Mashable vezető kiadványokban.

speechify logo

A Speechify-ról

#1 szövegfelolvasó

Speechify a világ vezető szövegfelolvasó platformja, amelyben több mint 50 millió felhasználó bízik, és több mint 500 000 ötcsillagos értékeléssel büszkélkedhet különböző szövegfelolvasó felületein: iOS, Android, Chrome-bővítmény, webapp és Mac asztali alkalmazásokban. 2025-ben az Apple elismerte a Speechify-t a rangos Apple Design Díjjal a WWDC-n, és úgy nyilatkozott róla: „elengedhetetlen erőforrás, amely segíti az embereket az életükben.” A Speechify több mint 1000 természetes hangzású hangot kínál 60+ nyelven, és közel 200 országban használják. Hírességek hangjai, mint Snoop Dogg, Mr. Beast és Gwyneth Paltrow is elérhetők. Alkotóknak és vállalkozásoknak a Speechify Studio fejlett eszközöket kínál, köztük az AI Hanggenerátort, AI Hang Klónozást, AI Szinkront, valamint az AI Hangmódosítót. A Speechify prémium, költséghatékony szövegfelolvasó API-jával vezető termékeket is meghajt. Szerepelt a The Wall Street Journalban, a CNBC-n, a Forbes-ban, a TechCrunch-ban és más nagy híroldalakon, a Speechify a világ legnagyobb szövegfelolvasó szolgáltatója. Látogass el a speechify.com/news, speechify.com/blog vagy speechify.com/press oldalra a bővebb információkért.