La tecnologia deepfake ha evolucionat molt els últims anys. Juntament amb els deepfakes de vídeo, els d'àudio o la clonació de veu són un camp emergent que fa servir intel·ligència artificial (IA) i algorismes d'aprenentatge automàtic.
Què és un deepfake? Què és la clonació de veu?
Un deepfake és un mitjà sintètic on la imatge o la veu d'una persona s'intercanvia per la d'una altra, creant àudio o vídeo falsos molt realistes. La clonació de veu, en canvi, consisteix a crear una còpia molt fidel d'una veu humana utilitzant un sistema de text a veu (TTS). Totes dues tècniques usen deep learning, una branca de la IA que imita com el cervell processa dades per prendre decisions.
La possibilitat de fer deepfakes d'àudio i clonar veus
Sí, es poden fer deepfakes d'àudio o clonar veus. Aquests sistemes fan servir algoritmes d'aprenentatge automàtic que analitzen moltes hores d’enregistraments. Un cop entrenats, poden crear àudios que imiten el to, la intensitat i els trets de la veu original. Aquest procés s'anomena síntesi de veu.
Com es creen deepfakes d'àudio i clons de veu
Crear un deepfake d'àudio té tres fases: recollida de dades, entrenament i generació. Primer calen moltes mostres d'àudio de la veu a imitar. Com més dades, millor serà el resultat. Després, aquestes mostres serveixen per entrenar un model de deep learning. Al final, el model genera àudio que s'assembla a la veu objectiu. Plataformes de codi obert a Github ofereixen recursos per fer-ho.
Clonació de veu vs deepfake
Tot i que tant la clonació de veu com els deepfakes utilitzen algoritmes semblants, tenen usos diferents. La clonació serveix per crear locucions per a podcasts, audiollibres o ajudar persones amb dificultats per parlar. Els deepfakes sovint s’usen per generar àudio fals amb intencions dubtoses o directament malicioses.
Com detectar deepfakes d'àudio i veus clonades
Detectar deepfakes d'àudio o veus clonades pot ser complicat per la gran qualitat dels resultats. Tot i així, hi ha indicis: entonacions o ritmes poc naturals, sons de fons estranys... Algunes empreses i equips de recerca ja fan servir IA per descobrir petites diferències que el cervell humà no capta. Les mètriques incrustades als models també ajuden a detectar deepfakes en temps real.
Aspectes legals dels deepfakes
La legalitat dels deepfakes depèn del país. En alguns llocs, crear-ne per fer estafes, desinformar o fer mal és il·legal. A Nova York, per exemple, s'han aprovat lleis contra la suplantació digital. Tot i així, sovint la legislació no avança tan ràpid com la tecnologia.
Beneficis de la clonació de veu i implicacions dels deepfakes
Els deepfakes poden ser una amenaça, sobretot generant àudios falsos per trucades o xarxes socials. Però la clonació de veu aporta beneficis com crear locucions, facilitar transcripcions o generar veus sintètiques per a sistemes d'IA.
La contrapartida és el risc d'abús: amb un deepfake d'àudio ben fet es poden suplantar persones per telèfon o videotrucada, facilitant estafes o escampant desinformació.
Els 9 millors programes o apps per a deepfakes d'àudio i clonació de veu
- Clonació de veu de Speechify: La clonació de veu de Speechify és la millor opció. Clona la teva veu a l'instant: prem enregistrar i parla durant 30 segons. Speechify IA la replica a l’acte.
- Resemble AI: Servei de creació de veus personalitzades amb IA.
- Descript: Suite d'edició d'àudio amb generador de veu deepfake.
- Lyrebird: Divisió de recerca en IA de Descript, especialitzada en síntesi de veu.
- iSpeech: Ofereix serveis de TTS i clonació de veu d'alta qualitat.
- CereProc: Creadors de veus úniques generades amb IA.
- Real-Time Voice Cloning: Projecte de codi obert a Github que clona veus en temps real.
- Azure Cognitive Services: Serveis de veu de Microsoft: TTS i conversió de veu.
- Voicery: Genera veus sintètiques i naturals per a aplicacions diverses.
Cada servei ofereix funcions, preus i nivells de qualitat diferents. Tria el que millor s'ajusti al que necessites.
Com més evolucioni la IA, més deepfakes d'àudio i clons de veu veurem. Entendre aquesta tecnologia, els seus avantatges i implicacions és clau en el món digital actual.

