Sinteza govora ali TTS je tehnologija, ki pretvarja napisano besedilo v izgovorjene besede. Uporablja se za podporo osebam z oviranostmi, učenje jezikov, GPS-navigacijo in še marsikaj. Z razmahom odprte kode se je pojavilo veliko takšnih orodij. Ta članek raziskuje svet odprtokodnih govorcev.
Najprej je pomembno poudariti, da niso vsa orodja za sintezo govora odprtokodna. Na primer, Google Text-to-Speech (TTS) ponuja zmogljiv API, a ni odprtokoden. Podobno tudi Amazon Polly, znan po naravnih glasovih, ni odprtokoden.
Po drugi strani pa je Coqui AI kakovosten odprtokodni TTS-paket, dostopen na GitHubu. Nastal je iz Mozillinega projekta TTS in ponuja zmogljiv ukazni vmesnik. Coqui AI uporablja Tacotron2 za generiranje glasov z globokim učenjem pri ustvarjanju novih glasov.
Microsoft Speech Platform in njene TTS-zmogljivosti prav tako niso odprtokodne. Za razvijalce je na voljo Speech API (SAPI5) na Windows platformah.
Pozitivno pa je, da v odprtokodnem svetu ne primanjkuje orodij za prepoznavanje govora. Dober primer je CMU Sphinx, zbirka sistemov, ki so jih razvili na Carnegie Mellon University.
Med kakovostnimi odprtokodnimi orodji za sintezo govora izstopa več programov:
- eSpeak: Kompakten odprtokodni govorni sintetizator za angleščino in druge jezike. Deluje na Windows in Linuxu, primeren je za robotske rešitve z malo prostora.
- Mycroft: Odprtokodni glasovni pomočnik, ki z umetno inteligenco omogoča TTS in prepoznavanje govora.
- MaryTTS: Prilagodljiva, večjezična odprtokodna TTS-platforma, napisana v Javi.
- Mozilla TTS: TTS-pogon na osnovi globokega učenja, del projekta Common Voice za zbiranje podatkov za učenje aplikacij.
- Festival Speech Synthesis System: Razvil ga je The Centre for Speech Technology Research v UK; ponuja ogrodje za razvoj govornih sistemov in obsežen nabor glasov.
- Flite (Festival-lite): Lahek govorni sintetizator na osnovi Festivala, primeren za vgrajene sisteme in velike strežnike.
- HTS: Na HMM temelječ govorni sistem za učenje in sintezo govora iz besedila, cenjen zaradi kakovosti govora.
- Docker: Čeprav Docker ni TTS-orodje, številna TTS-rešitev, kot je Coqui, delujejo z Dockerjem in so prenosljive med platformami.
Vsako orodje ima svoje prednosti in slabosti. Odprtokodni govorni generatorji so brezplačni, prilagodljivi in podprti s skupnostjo. Pogosto vsebujejo vnaprej naučene modele za strojno in globoko učenje, vendar za uporabo zahtevajo nekaj tehničnega znanja. Kakovost, zanesljivost ali nabor podprtih jezikov pa je lahko slabši kot pri komercialnih orodjih.
Odprtokodne rešitve še naprej spreminjajo tehnološki svet. Govorni sintetizatorji in TTS-sistemi se bodo še razvijali ter omogočali napredek na področju umetne inteligence, prepoznavanja govora in sinteze v realnem času.

