1. Pagrindinis
  2. TTS
  3. Kokia yra teksto į kalbą ir balso sintezės istorija?
Paskelbta TTS

Kokia yra teksto į kalbą ir balso sintezės istorija?

Cliff Weitzman

Cliff Weitzman

„Speechify“ generalinis direktorius / įkūrėjas

apple logo2025 m. Apple dizaino apdovanojimas
50 mln.+ vartotojų

Teksto į kalbą (TTS) ir balso sintezė gali atrodyti naujos technologijos, tačiau jų istorija siekia šimtmečius.

Nuo pirmųjų bandymų mechaniniais įrenginiais mėgdžioti žmogaus kalbą iki dabartinių dirbtinio intelekto ir giluminio mokymosi modelių – TTS raida buvo išties įdomi kelionė.

Šiame straipsnyje plačiau apžvelgsime teksto į kalbą ir balso sintezės istoriją bei būsimas šių technologijų galimybes.

Teksto į kalbą ir balso sintezė: nuo ištakų iki šiandien

XVIII ir XIX amžiai

Teksto į kalbą ir balso sintezės istorija prasideda XVIII–XIX amžiuje. Tuo metu vyko pirmieji kalbos sintezės bandymai, visi – su mechaniniais prietaisais. 1770-aisiais vengrų išradėjas Wolfgangas von Kempelenas sukūrė akustinį mechaninį balso įrenginį, imituojantį žmogaus balso traktą. Šis analoginis prietaisas naudojo dumples, liežuvėlius ir vamzdelius balsiams bei priebalsiams kurti.

XVIII a. pabaigoje anglų fizikas Charlesas Wheatstone'as sukūrė mechaninę Kempeleno balso įrenginio versiją, kurią pavadino „kalbančiu aparatu“. Prietaisas galėjo atkurti įvairių muzikos instrumentų garsus. Nors Wheatstone'o įtaisas nebuvo skirtas vien kalbos sintezei, jis paskatino mechaninių prietaisų naudojimą garsui generuoti.

XIX amžiuje pasirodė ir kiti įrenginiai, pvz., Faberio „dirbtinė kalba“. Jie naudojo mechanines ir pneumatines sistemas kalbos garsams generuoti.

XX a. pradžia ir pirmoji elektrinė kalbos sintezė

XX a. pradžioje kalbos sintezė tapo sudėtingesnė, kai Homer Dudley Bell laboratorijose (Naujasis Džersis) išrado pirmą visiškai elektrinę kalbos sintezės sistemą – vokoderį.

Dudley vokoderis naudojo rezonatorius ir filtrus sintetiniam balsui kurti. Vokoderis, pavadintas Voder, buvo demonstruotas 1939–1940 m. Pasaulinėje parodoje Niujorke. Ekspertai aparatą valdė klaviatūra ir pedalais, taip generuodami kalbą.

1950–1970 m.: sintezatorių era

1951 m. Dudley darbai paskatino dr. Frankliną S. Cooperį iš Haskins laboratorijų sukurti pattern playback sistemą. Ji analizavo įrašytus garsus (žodį ar frazę), suskaidydama juos į garso bangas („spektrogramas“), kurios buvo saugomos magnetinėje juostoje ir atkuriamos kaip sintetinis garsas.

1976 m. Kurzweil Reading Machine pristatė pirmą komerciškai sėkmingą teksto į kalbą sistemą, naudojančią jungiamąją sintezę – sujungiant iš anksto įrašytus fonemus ir žodžius. Ji buvo skirta žmonėms su negalia, bet greitai išpopuliarėjo kaip skaitymo priemonė.

Nuo 1978 m. Texas Instruments kūrė kalbos sintezės lustą kompiuteriniams žaidimams ir kitoms programoms. Luste naudota jungiamoji sintezė, sujungianti įrašytus kalbos garsus (difonus), kad būtų išgautas žmogaus balsas. Šis sprendimas vėliau naudotas DECtalk, kurio sintetinė kalba suteikė galimybę kalbėti žmonėms su negalia.

Šiuolaikinės teksto į kalbą sistemos

Pastaraisiais metais viena didžiausių naujovių tapo neuroninių tinklų panaudojimas sintetiniam balsui kurti. Tokios įmonės kaip Google ir Microsoft kuria TTS sistemas, kurios analizuoja milžiniškus žmonių balso įrašų kiekius ir generuoja natūraliai skambantį balsą naudodamos giluminio mokymosi algoritmus.

Dar viena svarbi TTS plėtros kryptis – jungiamų kalbos vienetų (pvz., difonų ar žodžių) sintezė. Taip sukuriamas natūralesnis garsas, sujungiant mažus iš anksto įrašytus kalbos vienetus į naujus sakinius. Tai taikoma populiariose TTS programose, tokiose kaip Speechify, Apple Siri, Amazon Alexa, ir senesniuose įrankiuose, pavyzdžiui, IBM ViaVoice.

Kalbos atpažinimo technologija pastaraisiais metais taip pat stipriai pažengė. Tai leido sukurti pažangesnes TTS sistemas – kalbos atpažinimo algoritmai perrašo žmogaus kalbą į tekstą, todėl išvestis tampa gerokai natūralesnė.

Pastaruoju metu į TTS integruota ir prozodija bei intonacija, leidžiančios sukurti natūralesnį kalbos skambesį su tinkamomis pauzėmis, kirčiais ir intonacija. Prozodija ypač svarbi tokioms kalboms kaip anglų, kur kirčiai ir intonacija gali keisti sakinio reikšmę.

Gilusis mokymasis ir toliau: technologijų ateitis

TTS technologijų ateitis žada daug. Sparčiai vystantis DI ir giluminiam mokymuisi, ateityje girdėsime dar natūralesnį balsą, galintį atkartoti subtiliausius žmogaus kalbos niuansus.

Tai bus ypač naudinga kuriant virtualius asistentus ir pokalbių robotus – jie dar labiau primins žmogų, o bendravimas vartotojams bus kur kas natūralesnis.

Taip pat bus tobulinamas fonetinis perrašymas ir teksto vertimas į fonemas. Gerėjant kalbos atpažinimui, balso į tekstą sistemų tikslumas ir sparta dar labiau didės.

Galiausiai teksto į kalbą technologija taps dar prieinamesnė ir labiau kasdienė. Pasaulyje daugėjant prie daiktų interneto prijungtų įrenginių, vis dažniau juos valdysime balsu – tai suteiks daugiau patogumo ir efektyvumo kasdienybėje.

Prisijunkite prie teksto į kalbą revoliucijos su Speechify

Ieškote efektyvios teksto į kalbą paslaugos, kuri siūlytų natūraliai skambantį, aukštos kokybės balsą? Rinkitės Speechify.

Speechify, naudodama pažangią formantų sintezę, sukuria realistišką, natūralų balsą – nebe robotinį, kaip anksčiau. Net tokia išskirtinė asmenybė kaip Stephenas Hawkingas – kuris pats naudojosi teksto į kalbą technologija – nustebtų Speechify galimybėmis.

Naudotis Speechify paprasta: apsilankykite svetainėje ar atsisiųskite programėlę ir įveskite tekstą. Tuomet pasirinkite balsą, sureguliuokite greitį ir aukštį – ir viskas! Speechify sukurs puikią naraciją e. mokymams, paaiškinamiesiems vaizdo įrašams, podkastams ir prezentacijoms. Netgi galite susikurti savo balsus naudojimui YouTube ar kituose socialiniuose tinkluose.

Nesitenkinkite prastesniais TTS sprendimais – išbandykite Speechify jau šiandien ir patirkite, kokia gali būti teksto į kalbą technologijos ateitis.

DUK

Kas sukūrė pirmąjį pasaulyje kalbos sintezatorių?

Homeris Dudley 1930-ųjų pradžioje Niujorko Bell laboratorijose sukūrė pirmą pasaulyje kalbos sintezatorių.

Koks yra kalbos sintezės tikslas?

Kalbos sintezės tikslas – iš teksto sukurti dirbtinį balsą, pasitelkiant kalbos apdorojimą ir dažnių analizę.

Kokie yra keturi TTS panaudojimo būdai?

TTS naudojamas prieinamumui didinti, pramogoms, kalbų mokymuisi ir balsinių paslaugų automatizavimui.

Kokie yra teksto į kalbą privalumai?

Teksto į kalbą didina prieinamumą, padeda mokytis, skatina produktyvumą, nes leidžia rašytą turinį klausyti balsu.

Kuris momentas teksto į kalbą sintezės raidoje buvo netikėčiausias?

Vienas netikėčiausių momentų – kai Charlesas Wheatstone'as išrado mechaninį kalbos sintezatorių.

Mėgaukitės pažangiausiais AI balsais, neribotu failų kiekiu ir 24/7 pagalba

Išbandyti nemokamai
tts banner for blog

Pasidalykite šiuo straipsniu

Cliff Weitzman

Cliff Weitzman

„Speechify“ generalinis direktorius / įkūrėjas

Cliff Weitzman – disleksijos šalininkas, „Speechify“ vadovas ir įkūrėjas. „Speechify“ – pirmaujanti pasaulyje teksto į kalbą programa, turinti daugiau nei 100 000 penkių žvaigždučių įvertinimų ir lyderiaujanti „App Store“ naujienų ir žurnalų kategorijoje. 2017 m. „Forbes“ jį įtraukė į „30 iki 30“ sąrašą už indėlį didinant interneto prieinamumą žmonėms su mokymosi sutrikimais. Apie jį rašė „EdSurge“, „Inc.“, „PC Mag“, „Entrepreneur“, „Mashable“ ir kt.

speechify logo

Apie Speechify

#1 teksto į kalbą skaitytuvas

Speechify yra pirmaujanti pasaulyje teksto į kalbą platforma, kuria pasitiki daugiau nei 50 milijonų vartotojų ir kurią pagrindžia daugiau nei 500 000 penkių žvaigždučių atsiliepimų skirtingose teksto į kalbą iOS, Android, Chrome plėtinio, internetinės programėlės ir Mac darbalaukio programose. 2025 m. Apple apdovanojo Speechify prestižiniu Apple dizaino apdovanojimu per WWDC, pavadindama jį „esminiu ištekliumi, padedančiu žmonėms gyventi visavertį gyvenimą“. Speechify siūlo daugiau nei 1 000 natūraliai skambančių balsų daugiau nei 60 kalbų ir naudojamas beveik 200 šalių. Tarp įžymybių balsų – Snoop Dogg ir Gwyneth Paltrow. Kūrėjams ir verslui Speechify Studio suteikia išplėstinius įrankius, tarp kurių yra AI balso generatorius, AI balso klonavimas, AI dubliavimas ir AI balso keitiklis. Speechify taip pat aprūpina pažangius produktus kokybišku ir ekonomišku teksto į kalbą API. Apie mus rašė The Wall Street Journal, CNBC, Forbes, TechCrunch ir kiti didieji naujienų portalai, todėl Speechify yra didžiausias teksto į kalbą teikėjas pasaulyje. Apsilankykite speechify.com/news, speechify.com/blog ir speechify.com/press ir sužinokite daugiau.