Zaradi napredka v strojnem učenju je kloniranje glasu izjemno napredovalo in omogočilo vrhunske rešitve besedilo-v-govor. Ena ključnih inovacij je zero-shot, prelomna tehnologija v tem sektorju. V tem članku predstavljamo zero-shot kloniranje glasu in njegov vpliv na industrijo.
Razlaga zero-shot strojnega učenja
Cilj kloniranja glasu je posnemati govor tako, da s pomočjo umetne inteligence ustvari glas, ki zveni kot določena oseba, in to z zelo malo posnetki. To tehnologijo delimo na tri glavne postopke kloniranja glasu:
One-shot učenje
One-shot učenje pomeni, da je model treniran le na eni sliki nečesa novega, a mora kljub temu prepoznati druge slike iste stvari.
Few-shot učenje
Few-shot učenje pomeni, da model dobi nekaj slik nečesa novega in nato prepozna podobne stvari, tudi če se nekoliko razlikujejo.
Zero-shot učenje
Zero-shot učenje omogoča modelu prepoznavanje novih predmetov ali pojmov, ki jih še ni videl, na podlagi opisa njihovih značilnosti (npr. z zbirko podatkov, kot je VCTK). Modelu ne podamo slik ali primerov, temveč le seznam značilnosti.
Kaj je kloniranje glasu?
Kloniranje glasu pomeni, da s strojnim učenjem posnemamo govor določenega govorca. Cilj je poustvariti barvo in ton govora že s kratkim posnetkom. Postopek vključuje pretvorbo govora v kodo (z enkoderjem), ki se pretvori v vektor (t. i. speaker embedding), ta pa služi kot osnova za sintetizator/vocoder, ki ustvari nov govor, podoben izvirniku. Sintetizator uporablja vektor + mel spektrogram kot vhod. Tako nastane nova zvočna valovna oblika. Postopek temelji na globokem učenju z raznolikimi zbirkami podatkov. Možnosti uporabe:
- Pretvorba glasu – spreminjanje posnetka, da zveni, kot da ga je posnel nekdo drug.
- Preverjanje govorca – preverjanje, ali nekdo res govori kot določena oseba.
- Večgovorski besedilo v govor – ustvarjanje govora iz besedila in ključnih besed
Nekateri znani algoritmi za kloniranje glasu so WaveNet, Tacotron2, Zero-shot Multi-speaker TTS in Microsoftov VALL-E. Na GitHubu najdete številne dobre odprtokodne rešitve. Če vas zanimajo nove rešitve, spremljajte konference ICASSP, Interspeech in IEEE International Conference.
Zero-shot učenje pri kloniranju glasu
Pri zero-shot kloniranju glasu enkoder izlušči govorne vektorje iz učnih podatkov. Te lahko uporabimo za predelavo govora govorcev, ki jih prej še ni bilo v učni množici (t. i. nevidni govorci). To omogočimo z uporabo različnih tehnik, na primer:
- Konvolucijski modeli – največkrat uporabljeni za prepoznavo slik.
- Avtoregresivni modeli – napovedujejo prihodnje vrednosti na podlagi preteklih.
Eden od izzivov je poskrbeti, da sintetizirani govor zveni kakovostno in naravno. To preverjajo z naslednjimi merili:
- Podobnost govorca – kako zelo se sintetizirani glas ujema z izvirnikom.
- Naravnost govora – kako naravno zveni govor poslušalcu.
Resnični podatki iz prakse, uporabljeni za učenje in ocenjevanje AI modelov, se imenujejo referenčni zvok ali »ground truth«. Služijo za učenje in normalizacijo. Za še boljšo prilagodljivost uporabljamo tudi prenos sloga (style transfer) z dvema vhodoma: en za vsebino in drug za slog, da model bolje obvlada nove primerke.
Oglejte si najnovejše dosežke kloniranja glasu v Speechify Studiu
Speechify Studio AI kloniranje glasu omogoča ustvarjanje vaše AI različice glasu — za personalizirano pripovedovanje, gradnjo blagovne znamke ali dodajanje osebnega pridiha projektom. Posnamete vzorec in Speechify ustvari vaš digitalen glas. Želite več? Vgrajeni spremeni glas vam omogoča, da katerikoli posnetek pretvorite v katerega koli izmed več kot 1.000 AI glasov Speechify Studia za popoln nadzor nad tonom, slogom in podajanjem. Prilagodite svoj glas ali posnetke za različne namene — Speechify Studio ponuja strokovno prilagodljivost na dosegu roke.
Pogosta vprašanja
Čemu služi kloniranje glasu?
Kloniranje glasu omogoča naraven, kakovosten govor, ki izboljša komunikacijo in povezanost med ljudmi in napravami.
Kakšna je razlika med pretvorbo in kloniranjem glasu?
Pretvorba glasu spreminja govor, da zveni kot nekdo drug; kloniranje pa ustvari nov glas, ki posnema posameznika.
Katero programsko opremo lahko uporabite za kloniranje glasu?
Na voljo je več možnosti, na primer Speechify, Resemble.ai, Play.ht in druge.
Kako prepoznati ponarejen glas?
Najpogostejša tehnika je spektralna analiza, kjer iz zvočnega signala razberemo značilne vzorce.

