Dirbtinis intelektas (DI) jau beveik visur – nuo pokalbių robotų svetainėse iki turinio kūrėjų socialiniuose tinkluose ir žaidimuose. DI balso technologija ypač sparčiai tobulėja: nuo paprastų teksto vertimo į kalbą (TTS) sistemų iki žmonių balsus imituojančių sprendimų. Naudodamas DI įrankius, tokius kaip balso generatoriai ar kopijavimo programos, DI jau gali labai įtikinamai atkartoti žmogaus balsą.
Teksto į kalbą ir kalbos atpažinimo skirtumai
Teksto į kalbą (TTS) ir kalbos atpažinimas – tos pačios srities, bet skirtingos paskirties DI technologijos. TTS – tai kalbos sintezė, kuri paverčia tekstą balsu. Ji dažnai naudojama audioknygoms, e. mokymuisi ir pagalbos priemonėse žmonėms su negalia. TTS naudoja DI ir mokymosi algoritmus balsui kurti iš teksto.
Kalbos atpažinimas, priešingai, – tai kalbos pavertimas tekstu. Ši technologija plačiai naudojama realaus laiko transkripcijose, balso asistentuose, tokiuose kaip „Siri“ ar „Alexa“, ir net socialinėse platformose, pavyzdžiui, „TikTok“ subtitrams.
Kaip DI gali atkartoti žmogaus balsą
DI dažniausiai atkuria žmogaus balsą dviem žingsniais – analizė ir sintezė. Tai vadinama balso kopijavimu. Pirmiausia DI analizuoja balso įrašus, atpažįsta dėsningumus, tonus, akcentus, pasitelkdamas gilųjį mokymąsi ir neuroninius tinklus.
Sintezės fazėje DI, naudodamas generatyvinius modelius (pvz., ChatGPT ar Adobe VoCo), sukuria skaitmeninį balsą, panašų į originalą. Tai primena balso „deepfake“. Dažnai pakanka kelių sekundžių įrašo, kad būtų sukurtas įtikinamai tikroviškas balsas.
Žmogaus balso kūrimo komponentai
Norint sukurti žmogaus balsą, svarbios kelios dalys:
- Fonetinė analizė: nagrinėja žmogaus kalbos garsus atskirai.
- Prosodijos analizė: ritmas, kirčiai ir intonacija.
- Mokymosi algoritmai: naudojami mokytis iš garsų ir atkartoti dėsningumus.
- Generatyviniai modeliai: kuria naujus balsus pagal išmoktus raštus.
Žmogaus ir DI balso skirtumai
Nors DI balsai tampa vis tikroviškesni, jie vis dar skiriasi nuo žmogaus balso. Pagrindinis skirtumas – emocijų niuansai ir intonacijos, kurias DI dar tik mokosi perteikti. Be to, balso kopijavimas kelia etikos ir privatumo klausimų: netinkamas naudojimas gali lemti tapatybės vagystes ar „deepfake“ sukčiavimus.
8 geriausios DI balso programos
- OpenAI ChatGPT: Kuria žmogiškus atsakymus, gali būti pritaikytas DI balsui programose.
- Adobe VoCo: Leidžia redaguoti ir kurti kalbą naudojant tik 20 min. originalaus balso įrašą.
- Amazon Polly: Verčia tekstą į natūralų balsą, puikiai tinka kalbančioms programoms ir produktams.
- Microsoft Azure Text to Speech: Kokybiškas DI balsas – plačiai naudojamas prieinamumui, pramogoms ir komunikacijai.
- Google Text-to-Speech: „Google“ paslauga kuria natūralią kalbą daugiau nei 30 kalbų.
- Descript: Padeda kurti, redaguoti ir tobulinti savo balsą tinklalaidėms ir įgarsinimams.
- Resemble AI: Siūlo balso kopijavimą – kurkite unikalų DI balsą prekės ženklui ar paslaugai.
- Lyrebird: Priklauso „Descript“, vieni pirmųjų sukūrė tikroviško balso imitacijas skaitmenoje.
DI balso technologija, paremta giliuoju mokymusi ir neuroniniais tinklais, sparčiai tobulėja ir plačiai taikoma audioknygoms, tinklalaidėms, socialiniams tinklams, žaidimams. Forbes pažymi, kad nauji DI įrankiai kuria itin kokybišką balsą ir keičia mūsų bendravimą su technologijomis. Didėjant galimybėms, riba tarp žmogaus ir DI balso vis labiau nyksta. Tačiau būtina atsargiai vertinti etikos ir privatumo rizikas.

