Balso sintezė, dar vadinama teksto į kalbą (TTS) sinteze, – tai technologija, kuri rašytinį tekstą paverčia žodine kalba. Ji praverčia daug kur: padeda žmonėms su negalia, mokantis kalbų, GPS navigacijai ir kt. Išpopuliarėjus atvirajam kodui, atsirado daugybė TTS įrankių. Šiame straipsnyje apžvelgsime atvirojo kodo balso sintezatorius.
Pirmiausia svarbu paminėti, kad ne visi balso sintezės įrankiai yra atvirojo kodo. Pavyzdžiui, nors Google Text-to-Speech (TTS) siūlo galingą API kūrėjams, šis sprendimas nėra atvirojo kodo. Panašiai ir Amazon Polly, žinoma dėl itin realistiškų balsų, taip pat nėra atvirojo kodo.
Tuo tarpu Coqui AI – kokybiškas TTS rinkinys – yra atvirojo kodo projektas, kurį rasite GitHub. Jis kilo iš Mozilla TTS projekto ir siūlo patogią komandų eilutės sąsają kalbos sintezei. Coqui AI išsiskiria tuo, kad naudoja Tacotron2 kalbos generavimui, o pagrindinis dėmesys skiriamas naujiems balsams kurti taikant gilųjį mokymąsi.
Microsoft Speech Platform, įskaitant jos teksto į kalbą galimybes, taip pat nėra atvirojo kodo. Vis dėlto kūrėjams, dirbantiems su Windows, siūlomas SAPI5 API.
Pozityviau žvelgiant, atvirojo kodo ekosistemoje netrūksta kalbos atpažinimo įrankių. Puikus pavyzdys – CMU Sphinx, Carnegie Mellon universitete sukurta kalbos atpažinimo sistemų šeima.
Kalbant apie kokybiškus atvirojo kodo balso sintezės įrankius, ypač išsiskiria šios programos:
- eSpeak: Kompaktiškas atvirojo kodo kalbos sintezatorius, skirtas anglų ir kitoms kalboms. Veikia Windows, Linux, tinka ir robotikos sprendimams.
- Mycroft: Atvirojo kodo balso asistentas, naudojantis mašininį mokymąsi TTS ir kalbos atpažinimui.
- MaryTTS: Lanksti, daugiakalbė atvirojo kodo TTS platforma, sukurta Java kalba.
- Mozilla TTS: Giliojo mokymosi pagrindu veikiantis TTS variklis, dalis Common Voice project, skirtas kurti mokomųjų balsų duomenų bazę.
- Festival Speech Synthesis System: Centre for Speech Technology Research (JK) sukurta kalbos sintezės sistema su įvairiais balsais.
- Flite (Festival-lite): Supaprastinta sintezės sistema, pagrįsta Festival, tinkama integruotiems įrenginiams ar didelio srauto serveriams.
- HTS: Kalbos sintezės sistema pagal HMM modelius, skirta aukštos kokybės sintezei iš teksto.
- Docker: Nors Docker nėra TTS įrankis, verta paminėti, kad daugelis TTS programų (pvz., Coqui) lengvai paleidžiamos Docker konteineriuose.
Kiekvienas įrankis turi savo pliusų ir minusų. Atvirojo kodo balso sintezatoriai kūrėjams ir vartotojams suteikia nemokamą, lengvai pritaikomą ir bendruomenės palaikomą platformą. Dažnai jie jau turi išmokytus modelius, leidžiančius naudoti ML ir DL metodikas. Tačiau jų diegimui ir naudojimui dažnai reikia techninių žinių. Be to, lyginant su komerciniais sprendimais, kartais gali stigti kokybės, vientisumo ar kalbų įvairovės.
Augant atvirojo kodo svarbai, balso sintezės ir TTS sistemos toliau tobulės. Jos turi didelį potencialą realaus laiko sprendimams ir gilesnei AI, ML bei DL integracijai kalbos atpažinimo ir sintezės srityse.

