Què és la síntesi de veu neuronal?
La parla és una forma complexa de comunicació. A més de transmetre significat, les paraules estan influenciades pel context i carregades d’emocions. Per això, reproduir les subtileses del llenguatge parlat podria semblar impossible per a una màquina. Tot i això, amb els avenços recents en lectura de text en veu alta (TTS), les màquines mai havien estat tan a prop de sonar com humans. El 2016, investigadors de la firma londinenca DeepMind van crear WaveNet, culminant així dècades de recerca per generar veu natural. Aquesta tecnologia empra xarxes neuronals entrenades amb enregistraments reals per generar una veu gairebé humana. La combinació de xarxes neuronals i aprenentatge automàtic va donar lloc al TTS neuronal, que ha millorat molt la naturalitat i la resposta de la síntesi de veu. Aquest article t’explica tot el que has de saber sobre aquesta tecnologia innovadora i com aprofitar-la.
Què és la síntesi de veu neuronal?
El TTS neuronal és text a veu impulsat per intel·ligència artificial i aprenentatge profund. Això fa que la síntesi de veu sigui molt més natural i expressiva que el TTS convencional. El TTS neuronal continua sent veu generada per màquina, però feta amb xarxes neuronals inspirades en el cervell humà. Com el cervell, aquests sistemes processen dades amb xarxes complexes de connexions que es reforcen amb la repetició. Les xarxes neuronals per al TTS neuronal processen grans volums de dades per optimitzar les connexions entre entrada i sortida. Això és aprenentatge automàtic, ja que utilitzen un vocoder neuronal per sintetitzar ones de veu sense intervenció de l’usuari. Per imitar la veu humana, el sistema necessita diversos models neuronals profunds: acústic, d’entonació i de durada. Els dos últims controlen aspectes com la melodia i el ritme de la veu, coneguts com a prosòdia. Les característiques acústiques, en canvi, determinen l’energia i el to en l’espectrograma. Diversos models neuronals ja han revolucionat la tecnologia del TTS.
- WaveNet: model autoregressiu amb xarxa neuronal convolucional
- Deep Voice: model complex amb quatre xarxes neuronals centrades en fonemes
- Tacotron: primer model de principi a fi amb arquitectura encoder-decoder
Aquests models després es van perfeccionar amb nous models, com:
- Deep Voice 2
- Deep Voice 3
- Parallel WaveNet
- Tacotron 2
En els darrers anys han sorgit nous models basats en transformers, que volen resoldre limitacions dels models TTS anteriors.
Per a què pots utilitzar la síntesi de text a veu?
La tecnologia de text a veu (TTS) té moltes aplicacions per millorar la comunicació, l’accessibilitat i la comoditat. En educació, ajuda alumnes amb dificultats lectores o ceguesa transformant text digital en veu. Agilitza la creació d’audiollibres i facilita tasques diàries a persones amb discapacitat visual, com llegir emails o navegar per webs. Però no cal tenir una discapacitat per aprofitar el TTS: qualsevol pot fer servir apps TTS per augmentar la productivitat, fer multitarea o descansar la vista. En transport, els GPS donen indicacions parlades i les empreses la fan servir per a l’atenció automàtica per telèfon. Els desenvolupadors també la integren en assistents virtuals i dispositius intel·ligents. La seva adaptabilitat i la qualitat creixent fan del TTS una eina imprescindible en molts àmbits avui dia.
Millors aplicacions amb síntesi de veu neuronal
Ara que ja saps què és el TTS neuronal, mira com en pots treure profit. Aquestes són les 3 apps TTS amb les veus més naturals.
Amazon Polly
Amazon Polly és un servei al núvol de text a veu amb més de 90 veus naturals en 34 idiomes i dialectes. La tecnologia de síntesi neuronal és un dels seus punts forts. Amazon Polly funciona com una consola web i està disponible en iOS i Android. També ofereix una API per integrar-la en apps externes.
NaturalReader
NaturalReader és una aplicació de text a veu amb funcions com personalització de pronúncia, tria d’estil de veu i OCR. Ofereix més de 150 veus naturals en més de 20 idiomes. Pots descarregar NaturalReader per a Windows, Mac, iOS i Android.
Speechify
Speechify és la millor opció TTS i destaca per funcions avançades com escaneig OCR, veus personalitzables i traducció instantània. Té més de 130 veus de gran qualitat gairebé iguals a les humanes, i cobreix més de 30 idiomes, incloent-hi espanyol, japonès i xinès. El que la fa líder és la naturalitat i l’expressivitat de les seves veus. Es pot usar en qualsevol dispositiu: app per a mòbil (iOS/Android), escriptori (Mac/Windows) o versió web.
Speechify—Un tresor de veus humanes naturals
La versatilitat de Speechify l’ha convertida en una de les eines TTS més destacades. S’hi pot personalitzar tota l’experiència, des de la velocitat de lectura fins a la tria de veus. També ofereix moltes integracions, inclosa API. Gràcies a una app pròpia per a cada plataforma, Speechify sempre ofereix una experiència fluida. La gran qualitat de les veus explica per què milions d’usuaris la trien. Descarrega Speechify gratis avui i descobreix com de natural pot arribar a sonar una veu sintètica.
Preguntes freqüents
Hi ha síntesi de veu que soni natural?
Sí, existeix síntesi de veu que sona natural: és el TTS neuronal.
Quina app de lectura de text té la veu més natural?
Speechify ofereix algunes de les veus més naturals en TTS.
Quins són els avantatges de la síntesi de veu neuronal?
Les veus generades per TTS neuronal són molt més naturals que la majoria d’altres. També són molt adaptables i poden canviar fàcilment d’estil.
Quina diferència hi ha entre text a veu i àudio a veu?
Les eines de text a veu converteixen text en veu, i cal introduir-hi text. Les eines d’àudio a veu reconeixen la parla i responen en temps real—com els assistents virtuals Google Alexa, Apple Siri o Microsoft Cortana.
La veu neuronal sona natural?
Sí, la síntesi de veu neuronal sona sorprenentment natural. Es basa en xarxes neuronals recurrents i produeix una parla i un llenguatge molt humans.
El TTS neuronal pot crear veus personalitzades?
Sí, el TTS neuronal pot crear veus a mida per a molts usos, com lectors de pantalla o xatbots, per a una experiència fluida. Azure és un dels fabricants més destacats i permet controlar paràmetres amb SSML i un kit de proves.

