Quina és la història del text a veu i la síntesi de veu?

El text a veu (TTS) i la síntesi de veu poden semblar tecnologies noves, però tenen una llarga trajectòria que es remunta segles enrere.

Des dels primers intents d’imitar la parla humana amb màquines fins als models d’intel·ligència artificial actuals, el desenvolupament del TTS ha estat un viatge fascinant.

En aquest article repassem la història del text a veu i la síntesi de veu i en descobrim les possibilitats de futur.

Text a veu i síntesi de veu: dels inicis fins a l’ús actual

Segles XVIII i XIX

La història del text a veu i la síntesi de veu comença als segles XVIII i XIX. Durant aquest període, es van fer proves amb dispositius mecànics. Als anys 1770, Wolfgang von Kempelen, inventora hongarès, va idear una màquina acústica-mecànica per simular la veu humana. Funcionava amb manxes, llengüetes i tubs per generar sons vocàlics i consonàntics.

Cap al final del segle XVIII, el físic anglès Charles Wheatstone va inventar una versió més mecànica de la màquina de Kempelen, anomenada "màquina parladora". Aquesta podia reproduir sons d’instruments musicals. Tot i que no estava pensada per a la síntesi de veu, reforçava la idea d’usar màquines per crear sons.

Al segle XIX es van desenvolupar altres dispositius, com la màquina de "parla artificial" de Faber. Combinaven sistemes mecànics i pneumàtics per crear sons de parla.

Primers del segle XX i la primera síntesi totalment elèctrica

Al començament del segle XX, la tecnologia de síntesi de veu fa un salt endavant amb la invenció del primer sistema elèctric: el vocoder de Homer Dudley. El dispositiu es va desenvolupar als Bell Laboratories de Nova Jersey.

El vocoder de Dudley utilitzava ressonadors i filtres per generar veu sintètica. El Voder, el primer prototip, es va presentar a l'Exposició Universal de Nova York de 1939-1940. Es controlava amb un teclat i pedals per produir veu.

De principis dels anys 50 a finals dels 70: l’auge dels sintetitzadors

El 1951, el treball de Dudley va inspirar el desenvolupament del pattern playback, per part del Dr. Franklin S. Cooper als Haskins Laboratories. Analitzava un so gravat (una paraula o frase) i el descomponia en ones sonores (patrons espectrogràfics). Aquests es guardaven en cinta magnètica per reproduir-ne una versió sintètica.

El 1976 es va presentar el primer sistema comercial d’èxit: la Kurzweil Reading Machine. Utilitzava síntesi concatenativa, combinant fonemes i paraules pregravades per crear veu sintètica. Inicialment s’adreçava a persones amb discapacitats, però ràpidament es va popularitzar com a recurs de lectura.

Des de 1978, Texas Instruments va desenvolupar un xip de síntesi de veu per a videojocs i aplicacions informàtiques. Feia servir síntesi concatenativa, combinant sons enregistrats (difons) per obtenir una veu més humana. Aquesta tecnologia es va utilitzar després en el DECtalk, un sistema TTS d’alta qualitat per a persones amb discapacitat.

Sistemes moderns de text a veu

Una de les innovacions recents és l’ús de xarxes neuronals per crear veu sintètica. Empreses com Google i Microsoft han creat sistemes TTS de gran qualitat amb algoritmes d’aprenentatge profund, que analitzen grans bases de dades de veus humanes per generar una veu natural.

Un altre avenç essencial en TTS com a tecnologia d’assistència ha estat la síntesi per selecció d’unitats i la síntesi concatenativa. Aquestes tècniques combinen petits fragments de veu pregravada per crear frases noves més realistes. S'utilitzen en apps populars com Speechify, Siri d'Apple, Alexa d'Amazon i eines veteranes com IBM ViaVoice.

La tecnologia de reconeixement de veu també ha avançat molt, i això permet sistemes TTS més sofisticats. Amb algoritmes que transcriuen veu a text, el TTS pot generar transicions més naturals cap a la parla sintetitzada.

Darrerament també s’ha integrat la prosòdia i la entonació. Això permet una veu més natural, amb pauses, èmfasi i un to adequat. La prosòdia és clau en idiomes com l’anglès, en què l’accent i la entonació afecten molt el significat.

Aprenentatge profund i més enllà: el futur de la tecnologia

El futur del TTS és molt prometedor. Amb el creixement de la IA i l’aprenentatge profund, podem esperar una veu artificial cada cop més natural, capaç d’imitar els matisos de la parla humana.

Un camp especialment interessant serà el desenvolupament d’assistents virtuals i xatbots. Aquests sistemes seran més conversacionals i permetran una interacció molt més natural amb els usuaris.

També veurem avenços en transcripció fonètica, o conversió text-a-fonema. A mesura que les màquines millorin a l’hora de reconèixer la parla humana, la precisió i l’eficiència del reconeixement de veu seguiran augmentant.

Finalment, el text a veu serà cada cop més accessible i estarà més integrat en el dia a dia. Amb més dispositius connectats a internet, els podrem controlar amb la veu en temps real i fer la vida quotidiana més fàcil i eficient.

Suma’t a la revolució del text a veu amb Speechify

Si busques un servei de text a veu potent i capaç de crear una narració natural i d’alta qualitat, prova Speechify.

Speechify utilitza tecnologia avançada de síntesi de formats per crear veus realistes i molt naturals, lluny de les veus robòtiques d’altres temps. Fins i tot autors com Stephen Hawking, que va treballar amb aquesta tecnologia, quedarien impressionats per Speechify.

Fer servir Speechify és molt fàcil: visita la web oficial o descarrega l’app. Escriu el text, tria la veu, ajusta velocitat i to, i llestos! Speechify crea narracions excel·lents i naturals per a e-learning, vídeos explicatius, podcasts i presentacions. Fins i tot pots crear les teves veus personalitzades per a YouTube i xarxes socials.

No et conformis amb TTS mediocres – prova Speechify avui mateix i descobreix el futur del text a veu.

Preguntes freqüents

Qui va desenvolupar el primer sintetitzador de veu del món?

Homer Dudley va dissenyar el primer sintetitzador de veu del món als anys 1930, als Bell Laboratories de Nova York.

Quin és l’objectiu de la síntesi de veu?

La síntesi de veu vol generar parla artificial a partir de text mitjançant processament del llenguatge i anàlisi de la freqüència fonamental.

De quines quatre maneres es pot utilitzar el TTS?

El TTS s’utilitza per a accessibilitat, entreteniment, aprenentatge d’idiomes i automatització de serveis amb veu.

Quins avantatges té el text a veu?

El text a veu millora l’accessibilitat, facilita l’aprenentatge i augmenta la productivitat permetent consumir textos amb l’oïda.

Quin ha estat el moment més sorprenent en la síntesi de text a veu?

Un dels moments més sorprenents va ser la invenció de la màquina mecànica de síntesi de veu de Charles Wheatstone.

Speechify és la plataforma líder mundial de text a veu, de confiança per a més de 50 milions d'usuaris i avalada per més de 500.000 ressenyes de cinc estrelles a les seves aplicacions de text a veu per a iOS, Android, Extensió de Chrome, aplicació web i aplicació per a Mac. El 2025, Apple va premiar Speechify amb el prestigiós Premi de Disseny Apple a la WWDC, qualificant-lo com “una eina essencial que ajuda la gent a viure la seva vida.” Speechify ofereix més de 1.000 veus naturals en més de 60 idiomes i s'utilitza a gairebé 200 països. Entre les veus de celebritats hi trobem Snoop Dogg i Gwyneth Paltrow. Per a creadors i empreses, Speechify Studio proporciona eines avançades com Generador de veu IA, Clonació de veus IA, Doblatge IA i el seu Canviador de veu IA. Speechify també impulsa productes líders amb la seva API de text a veu, d'alta qualitat i amb una relació qualitat-preu òptima API de text a veu. Present en The Wall Street Journal, CNBC, Forbes, TechCrunch i altres mitjans destacats, Speechify és el proveïdor de text a veu més gran del món. Visiteu speechify.com/news, speechify.com/blog i speechify.com/press per saber-ne més.

Quina és la història del text a veu i la síntesi de veu?

Cliff Weitzman

Speechify, el teu assistent de veu amb IA.
Text a veu. Dictat per veu. Respostes ràpides.