Tot i que el concepte de text a veu — és a dir, programari que llegeix en veu alta el text en una pantalla — no és cap novetat, realment sembla estar vivint una autèntica revolució aquests darrers anys.
Segons un estudi recent, el mercat de text a veu estava valorat en uns impressionants 2.000 milions de dòlars el 2020 – en part per l’impacte de la pandèmia de la COVID-19. S’espera que arribi als 5.000 milions el 2026, amb un creixement anual del 14,6%.
Aquest creixement s’atribueix sobretot a com les solucions de text a veu ajuden persones amb moltes discapacitats visuals. Segons els CDC, als EUA, uns 12 milions de persones majors de 40 anys tenen problemes visuals. D’aquestes, un milió són cegues i vuit milions tenen problemes per errors refractius no corregits, xifra que ha pujat des de 4,2 milions el 2012.
Tot plegat demostra que la tecnologia de text a veu ha demostrat el seu valor al llarg dels anys. Solucions com Speechify ofereixen múltiples veus d’alta qualitat per adaptar-se a cada necessitat. Però, com funcionen exactament i per què hi ha tantes opcions de veu? Per respondre aquestes preguntes cal entendre alguns conceptes clau.
Com funciona el text a veu
Abans d’arribar a les veus de text a veu, cal entendre millor com funcionen aquestes solucions des de l’inici.
El text a veu fa servir intel·ligència artificial, aprenentatge automàtic i tecnologies similars per convertir el text de la pantalla en àudio. Això inclou el contingut de webs i articles, però també textos d’aplicacions com Microsoft Word i d’altres.
L’àudio es genera completament al dispositiu utilitzat. A més d’ordinadors i portàtils, el text a veu està disponible a gairebé tots els mòbils, tauletes i altres dispositius actuals.
En la gran majoria de solucions, el processament de text a veu es fa de manera local al dispositiu. Això fa que sigui útil encara que no hi hagi connexió a Internet.
A més de facilitar l’accés al contingut escrit per a persones amb problemes de visió, el text a veu permet controlar l’entonació i la velocitat de la veu. Pots alentir o accelerar la lectura segons les teves preferències.
Veus de text a veu: desglossant el procés
Pel que fa a la veu utilitzada per aquestes solucions de text a veu, tot es basa en el concepte de sintetitzador de veu.
Què és un sintetitzador de veu?
La síntesi de veu permet que l’ordinador (o dispositiu) llegeixi paraules en veu alta amb una veu triada prèviament. Conceptualment, no és tan diferent de llegir el text en paper o imprimir-lo: és una manera més com l’ordinador mostra la informació. Però, en lloc de fer-ho només amb text, ho fa amb una veu que pots escoltar amb altaveus o auriculars.
En general, la síntesi de veu funciona mitjançant diversos passos clau. El primer és convertir el text d’una pàgina en paraules.
Pas 1: Preprocessament
En aquesta fase, les solucions de text a veu analitzen el text i transformen els símbols (lletres) en paraules. Aquesta etapa és clau perquè el llenguatge escrit pot ser ambigu. Algunes paraules o frases poden tenir més d’un significat. L’ordinador ha de “distingir” entre paraules com “seu”, “cel” o “cell” (en anglès: their, there, they're), que sonen igual però canvien el sentit de la frase.
Aquí entren en joc l’IA i l’aprenentatge automàtic. Amb IA, les solucions de text a veu es poden “entrenar” per reduir l’ambigüitat. Aquesta etapa es diu “preprocessament”, perquè passa a l’ombra abans que el programa llegeixi cap paraula en veu alta.
En aquesta fase també es distingeixen paraules iguals que es pronuncien diferent segons el context. “Llegeixo” i “he llegit” en són exemples. Les persones podem discernir-ho pel context; la IA intenta aconseguir el mateix en el processament informàtic.
També són difícils, en aquesta etapa, coses com números, sigles, abreviatures i caràcters especials (com el símbol del dòlar). Per això el preprocessament és tan rellevant: assegura que el que es llegeixi després tingui sentit i concordi amb el context.
Pas 2: Comprendre la pronunciació
Un cop analitzat el text i la solució de text a veu “sap” quines paraules ha de pronunciar, comença la següent fase. Ara, aquestes paraules es converteixen en fonemes, és a dir, s’aprèn a pronunciar-les correctament.
Aquesta part ha evolucionat molt amb els anys. Si vas provar una solució de text a veu dels 90 (o has vist pel·lícules dels 70 o 80 amb text a veu), eren veus molt poc naturals. Tot i que s’entenia el que deien, pronunciaven moltes paraules malament i sempre es notava que era una veu generada per ordinador.
Pas 3: Comença la conversió a veu
Un cop identificats els fonemes, el sistema passa a la fase final: convertir la informació en so que es pot reproduir per altaveus o auriculars.
Això pot passar de diverses maneres segons la solució. Una opció és que un actor o actriu llegeixi una llista de fonemes, es gravi i s’alimenti a l’ordinador. Així, quan l’aplicació escaneja un text, pot combinar fonemes gravats i crear una versió en àudio del text molt més natural.
Algunes solucions permeten que l’ordinador generi la veu directament. Funciona de manera similar, però la ‘veu’ no es basa en àudios prèviament gravats, sinó en la generació de freqüències de so en l’ordre necessari.
D’aquesta manera, s’assembla a com un sintetitzador musical permet als músics imitar instruments amb un teclat connectat a un ordinador. Pots tocar-lo com un piano, però cada tecla pot imitar una guitarra o una bateria. L’ordinador interpreta la pulsació i fa sonar el so adequat, tot i que en un context diferent.
Opcions de veu i més enllà
Hi ha tantes opcions de veu en aquestes solucions de generador de veu perquè no són tan difícils de crear com es pensa. Els fonemes que necessita un generador de veu IA són comuns a qualsevol idioma. Així, només cal que un actor o actriu llegeixi un petit guió amb els fonemes, que es graven i es processen.
La tecnologia d’IA reconeix cada fonema, “trenca” la gravació en parts i utilitza les que fan falta per generar la veu de text que escoltarà l’usuari al web o en qualsevol altre contingut.
Òbviament, hi ha molts altres usos possibles del generador de veu natural més enllà d’ajudar persones amb discapacitat visual. Els darrers anys, gràcies a xarxes socials com TikTok, l’interès pel text a veu IA ha crescut de manera notable.
TikTok és una de les grans plataformes que ha adoptat la generació de veu IA: els usuaris poden gravar vídeos, afegir-hi text i fer que la síntesi de veu llegeixi el contingut en veu alta. Això afegeix una capa divertida a TikTok i cada cop és més popular.
El futur del text a veu ja és aquí
Al final, la veu de text a veu és una eina molt valuosa pel que ens permet fer. Dona accés al contingut per a persones amb discapacitat visual, convertint qualsevol article, document o paper en àudio fàcil d’escoltar, tant a casa com de camí, al gimnàs, etc.
No només fa que la vida sigui més productiva, també ajuda a resoldre molts problemes importants com els que hem esmentat. Per això, la síntesi de veu i la IA de veu han guanyat tanta popularitat els últims anys.
Si vols saber-ne més sobre veus de text a veu, o vols descobrir com et pot ajudar, no t’ho pensis més — prova Speechify gratis avui.
Speechify és l’app núm. 1 a l’App store, amb la veu més natural i millor experiència, i moltes veus personalitzables.
Speechify es pot trobar de diverses maneres: per a usuaris individuals, grups, o via API per a empreses de totes les mides.

