Què és la clonació de veu zero-shot?

Gràcies als avenços en l'aprenentatge automàtic, la clonació de veu ha evolucionat molt en els darrers anys, donant peu a algunes de les solucions de text a veu més impressionants fins ara. Entre els progressos més importants hi ha el zero-shot, que ha despertat molt d'interès al sector tecnològic. Aquest article presenta la clonació de veu zero-shot i com ha transformat la indústria.

Explicació de l'aprenentatge automàtic zero-shot

L'objectiu de la clonació de veu és replicar la veu d'una persona sintetitzant-ne el to i el timbre amb només una petita mostra d'àudio gravat. En altres paraules, la clonació de veu és una tecnologia innovadora que empra intel·ligència artificial per crear una veu que s'assembla a la d’una persona concreta. Es distingeixen tres processos principals de clonació de veu:

Aprenentatge one-shot

L'aprenentatge one-shot vol dir que el model s'entrena amb només una imatge d'alguna cosa nova, però igualment ha de ser capaç de reconèixer altres imatges d'aquell mateix objecte.

Aprenentatge few-shot

L'aprenentatge few-shot és quan es mostra al model unes quantes imatges noves i pot reconèixer objectes semblants encara que no siguin idèntics.

Aprenentatge zero-shot

L'aprenentatge zero-shot consisteix a ensenyar a un model a reconèixer objectes o conceptes nous sense que hagi estat entrenat prèviament en ells, utilitzant un conjunt de dades com VCTK per descriure'ls. El model aprèn a reconèixer coses noves sense imatges, exemples ni altres dades d'entrenament: li dones una llista de característiques que descriuen el nou element.

Què és la clonació de veu?

La clonació de veu consisteix a replicar la veu d'una persona amb tècniques d'aprenentatge automàtic. L’objectiu és reproduir-ne el to amb molt poca veu gravada. Un encoder de veu converteix la intervenció en un codi, que es transforma en un vector d'embeddings per entrenar un sintetitzador, també anomenat vocoder, que genera una veu semblant a l'original. El sintetitzador utilitza el vector i un mel-espectrograma (una representació visual de la veu) com a entrada. Aquest és el procés bàsic de la clonació de veu. El resultat és una ona de so amb la veu sintetitzada. Tot això es fa habitualment amb tècniques de deep learning, entrenant-se amb diversos conjunts de dades i mètriques per millorar la qualitat de la parla generada. Alguns usos de la clonació de veu són:

Conversió de veu: capacitat de fer sonar la veu d’una gravació com si l’hagués dita una altra persona.
Verificació de parlat: es compara la veu d’algú per comprovar-ne la identitat.
Text a veu multillocutor text to speech: generació de veu a partir de text.

Algoritmes coneguts de clonació de veu inclouen WaveNet, Tacotron2, Zero-shot Multispeaker TTS i VALL-E de Microsoft. També hi ha altres algoritmes de codi obert a GitHub amb resultats excel·lents. Si t'interessa aprofundir-hi, els congressos ICASSP, Interspeech i IEEE Conference són un referent en aquest camp.

L’aprenentatge zero-shot en la clonació de veu

Un encoder de veu s’utilitza per extreure vectors de veu de les dades d’entrenament i aconseguir clonació zero-shot. Es poden fer servir per processar veus desconegudes (que no són al conjunt d’entrenament). Això s’aconsegueix entrenant xarxes neuronals amb diverses tècniques, com ara:

Models convolucionals: xarxes neuronals emprades habitualment en classificació d’imatges.
Models autoregressius: poden predir valors futurs a partir dels anteriors.

Un dels reptes de la clonació de veu zero-shot és aconseguir una parla sintètica d’alta qualitat i que soni natural a qui l’escolta. Per això, s'utilitzen diverses mètriques per avaluar la síntesi:

Similitud de parlants: fins a quin punt s'assembla la veu sintetitzada a l'original.
Naturalitat de la parla: com de natural sona la veu generada.

Les dades reals que s’empren per entrenar i avaluar models d’IA s’anomenen àudio de referència (ground truth). Aquestes dades serveixen per a entrenament i normalització. A més, es fan servir tècniques de transferència d’estil per millorar la capacitat de generalització. La transferència d’estil usa dos inputs —un pel contingut principal i l’altre per l’estil— i així el model s’adapta millor a noves situacions.

Descobreix la nova tecnologia de clonació de veu amb Speechify Studio

La clonació de veu AI de Speechify Studio et permet crear una versió AI de la teva pròpia veu: ideal per personalitzar narracions, reforçar la identitat de marca o afegir un toc proper a qualsevol projecte. Només cal gravar una mostra, i els models AI avançats de Speechify generaran una rèplica digital realista de la teva veu. Vols més flexibilitat? El canviador de veu incorporat permet transformar àudios en qualsevol de les més de 1.000 veus AI de Speechify, amb control creatiu total sobre to, estil i expressió. Tant si vols polir la teva veu com transformar àudios per a diferents usos, Speechify Studio et posa la personalització de veu professional a l'abast.

Preguntes freqüents

Per a què serveix la clonació de veu?

La clonació de veu busca generar veu realista i d’alta qualitat que es fa servir en moltes aplicacions per millorar la comunicació home-màquina.

Quina diferència hi ha entre conversió i clonació de veu?

La conversió de veu modifica la veu d’una persona perquè soni com una altra; la clonació crea una veu nova similar a la d’una persona concreta.

Quin software pot clonar veus?

Hi ha moltes opcions: Speechify, Resemble.ai, Play.ht i altres.

Com detectar una veu falsa?

La tècnica més comuna és l'anàlisi espectral, que examina l'àudio per identificar patrons vocals característics.

Speechify és la plataforma líder mundial de text a veu, de confiança per a més de 50 milions d'usuaris i avalada per més de 500.000 ressenyes de cinc estrelles a les seves aplicacions de text a veu per a iOS, Android, Extensió de Chrome, aplicació web i aplicació per a Mac. El 2025, Apple va premiar Speechify amb el prestigiós Premi de Disseny Apple a la WWDC, qualificant-lo com “una eina essencial que ajuda la gent a viure la seva vida.” Speechify ofereix més de 1.000 veus naturals en més de 60 idiomes i s'utilitza a gairebé 200 països. Entre les veus de celebritats hi trobem Snoop Dogg i Gwyneth Paltrow. Per a creadors i empreses, Speechify Studio proporciona eines avançades com Generador de veu IA, Clonació de veus IA, Doblatge IA i el seu Canviador de veu IA. Speechify també impulsa productes líders amb la seva API de text a veu, d'alta qualitat i amb una relació qualitat-preu òptima API de text a veu. Present en The Wall Street Journal, CNBC, Forbes, TechCrunch i altres mitjans destacats, Speechify és el proveïdor de text a veu més gran del món. Visiteu speechify.com/news, speechify.com/blog i speechify.com/press per saber-ne més.

Què és la clonació de veu zero-shot?

Cliff Weitzman

Speechify, el teu assistent de veu amb IA.
Text a veu. Dictat per veu. Respostes ràpides.