Tot sobre les veus deepfake

L’auge dels deepfakes és un dels temes més rellevants en ciberseguretat i als mitjans. Té múltiples usos: des de contingut per a adults fins a notícies falses o fraus financers. Fer servir la imatge i la veu d’algú sense permís en vídeos i àudios creïbles pot semblar un gran avenç en IA, però no està exempt de polèmica.

Què és una veu deepfake?

Una veu deepfake imita de manera molt fidel la veu real d’una persona. Tot i ser sintètica, sona humana i reprodueix tonalitat, accent, cadència i altres trets únics.

Qui crea veus deepfake o clonació de veu fa servir IA i alta potència de càlcul. A vegades calen setmanes per clonar una veu. A més d’eines especialitzades, calen prou enregistraments de la persona que es vol imitar.

En certa manera, aquest procés s’assembla a fer servir un programa de text a veu per generar veus sintètiques. Però, normalment, aquests generen veus naturals sense imitar una veu concreta.

No passa res si algú clona la seva pròpia veu per audiollibres, locucions o altres continguts. Ara bé, crear veus deepfake d’altres persones sense permís és preocupant.

Els riscos de les veus deepfake

L’autenticació per veu va sonar a ciència-ficció durant anys. Malauradament, avui existeix i no és infal·lible. Amb l’evolució del programari i les xarxes neuronals, els estafadors poden fer més mal.

El 2020, un director de banc va rebre una trucada d’algú que creia que era el director d’una empresa. Va reconèixer la veu i va autoritzar una transferència de 35 milions de dòlars, sense saber que era una veu clonada.

Forbes va informar d’un cas similar l’any anterior: una energètica del Regne Unit va ser estafada per una veu deepfake d’una persona de confiança.

Encara més preocupant, obtenir enregistraments clars de veus és molt fàcil: gravadores, entrevistes online, rodes de premsa, etc. La tecnologia de captura de veu avança ràpid, així que les dades per entrenar IA són millors i donen lloc a deepfakes més creïbles.

Les eines de ciberseguretat encara no poden detectar deepfakes d’àudio de manera infal·lible.

Millor programari per crear veus deepfake

Speechify

A diferència d’altres eines d’aquesta llista, Speechify Voice Over no és una aplicació de clonació de veu. El programari de text a veu utilitza IA avançada per crear veus naturals. Disposa d’una àmplia biblioteca de veus humanes i pot generar-ne de noves segons diverses opcions.

La conversió de text a veu ajuda a seguir la lectura, crear podcasts o enregistrar àudio a partir del text. Ideal per a màrqueting, missatges sortints, suport al client, etc.

Resemble

Resemble AI és un dels programes més potents per crear enregistraments deepfake. No necessita grans quantitats de dades abans de clonar una veu.

Pots fer servir Resemble per clonar la teva veu, creant anuncis pregravat, podcasts, etc. Admet diversos idiomes i ofereix eines de modulació per personalitzar la veu o afegir-hi emoció.

Descript

Descript és una eina de clonació de veu amb edició avançada. Treballa amb transcripcions i clips d’àudio per generar veus realistes i deepfakes convincents.

Tot i que Descript té una corba d’aprenentatge alta, la personalització i les funcions de gravació i edició ajuden a crear discursos ultrarealistes amb qualsevol veu.

ReSpeecher

Crear veus amb IA i algoritmes d’aprenentatge pot ser emocionant i un bon negoci. ReSpeecher es va fer servir a Lucasfilm per fer la veu de Luke Skywalker a The Mandalorian.

Això demostra que cert programari deepfake pot fer molt més que clips curts per a xarxes socials. ReSpeecher destaca per la qualitat i la capacitat provada d’imitar veus humanes.

Real-Time Voice Cloning

No tothom pot gastar grans quantitats en ReSpeecher ni esperar torn. Algunes persones volen opcions assequibles i gratuïtes. Real-Time Voice Cloning és programari de codi obert disponible a GitHub.

No és la manera més fàcil de generar enregistraments amb una altra veu, però funciona amb clips de veu petits. Pot ser suficient per enganyar Alexa o fer bromes telefòniques.

iSpeech

iSpeech és un generador de veu gratuït centrat en la clonació de veus. Disposa de reconeixement de veu avançat i lector de text a veu, amb veus de famosos a la col·lecció.

Amb iSpeech pots crear deepfakes personalitzats i enregistrar la teva veu. És una eina versàtil, encara que menys convincent que altres, però ideal per a principiants en deepfakes.

Speechify – Crea veus humanes naturals

Speechify aprofita algorismes d’aprenentatge profund per generar veus humanes d’aspecte natural sense clonar cap veu concreta. Tot i els riscos, el programari de text a veu és generalment molt útil.

Prova Speechify Voice Over Studio per crear podcasts i narracions, llegir continguts complexos, aprendre idiomes i molt més.

Preguntes freqüents

FakeYou és gratuït?

FakeYou és un generador de veu IA gratuït però limitat. Ofereix moltes veus que imiten celebrities. Qualsevol el pot fer servir, tot i la conversió lenta. És fàcil d’usar des del navegador.

Com pots detectar veus deepfake?

Detectar veus deepfake requereix programari i maquinari avançats per analitzar patrons de parla, soroll de fons i altres elements.

Quina diferència hi ha entre una veu deepfake i un sintetitzador de veu?

Les veus deepfake són, sovint, veus clonades; els sintetitzadors de veu generen veus humanes amb propòsits comercials.

Speechify és la plataforma líder mundial de text a veu, de confiança per a més de 50 milions d'usuaris i avalada per més de 500.000 ressenyes de cinc estrelles a les seves aplicacions de text a veu per a iOS, Android, Extensió de Chrome, aplicació web i aplicació per a Mac. El 2025, Apple va premiar Speechify amb el prestigiós Premi de Disseny Apple a la WWDC, qualificant-lo com “una eina essencial que ajuda la gent a viure la seva vida.” Speechify ofereix més de 1.000 veus naturals en més de 60 idiomes i s'utilitza a gairebé 200 països. Entre les veus de celebritats hi trobem Snoop Dogg i Gwyneth Paltrow. Per a creadors i empreses, Speechify Studio proporciona eines avançades com Generador de veu IA, Clonació de veus IA, Doblatge IA i el seu Canviador de veu IA. Speechify també impulsa productes líders amb la seva API de text a veu, d'alta qualitat i amb una relació qualitat-preu òptima API de text a veu. Present en The Wall Street Journal, CNBC, Forbes, TechCrunch i altres mitjans destacats, Speechify és el proveïdor de text a veu més gran del món. Visiteu speechify.com/news, speechify.com/blog i speechify.com/press per saber-ne més.

Tot sobre les veus deepfake

Cliff Weitzman

Speechify, el teu assistent de veu amb IA.
Text a veu. Dictat per veu. Respostes ràpides.

Tot sobre les veus deepfake

Què és una veu deepfake?

Els riscos de les veus deepfake