Uma breve história da conversão de texto em fala

A síntese de fala, ou a produção artificial da voz humana, percorreu um longo caminho nos últimos 70 anos. Seja você usuário dos serviços de texto para fala para ouvir livros, estudar ou revisar seu próprio texto escrito, não há dúvida de que os serviços de texto para fala tornaram o dia a dia mais fácil para pessoas em diversas áreas.

Aqui, vamos dar uma olhada em como funciona o processamento de texto para fala e como essa tecnologia assistiva foi se transformando ao longo do tempo.

Introdução

No século XVIII, o professor russo Christian Kratzenstein criou ressonadores acústicos que imitavam o som da voz humana. Duas décadas depois, o VODER (Voice Operating Demonstrator) foi destaque na Feira Mundial de Nova York quando o criador Homer Dudley mostrou ao público como a fala humana poderia ser criada por meios artificiais. O dispositivo era difícil de operar – Dudley precisava controlar a frequência fundamental usando pedais.

No início do século XIX, Charles Wheatstone desenvolveu o primeiro sintetizador mecânico de fala. Isso deu início a uma rápida evolução das ferramentas e tecnologias de síntese articulatória.

Pode ser difícil definir exatamente o que faz um bom programa de texto para fala, mas, como muitas coisas na vida, você reconhece quando ouve. Um programa de texto para fala de alta qualidade oferece vozes naturais, com inflexão e tom realistas.

A tecnologia de texto para fala pode ajudar pessoas com deficiência visual e outras deficiências a obterem as informações de que precisam para prosperar no trabalho e se comunicar com os outros. O software também permite que estudantes e outras pessoas com grande volume de leitura ouçam seus conteúdos por meio da fala humana enquanto estão em movimento. A fala sintética permite que as pessoas façam mais em menos tempo e pode ser útil em diversos contextos, desde a criação de videogames até o apoio a pessoas com dificuldades no processamento de linguagem.

Anos 1950 e 60

No final dos anos 1950, foram criados os primeiros sistemas de síntese de fala baseados em computadores. Em 1961, John Larry Kelly Jr., físico do Bell Labs, usou um computador IBM para sintetizar fala. Seu vocoder (sintetizador gravador de voz) recriou a música Daisy Bell.

Na mesma época em que Kelly aperfeiçoava seu vocoder, Arthur C. Clarke, autor de 2001: Uma Odisseia no Espaço, usou a demonstração de Kelly no roteiro de seu livro. Durante a cena, o computador HAL 9000 canta Daisy Bell.

Em 1966, a codificação preditiva linear surgiu no cenário. Essa forma de codificação de fala começou a ser desenvolvida por Fumitada Itakura e Shuzo Saito. Bishnu S. Atal e Manfred R. Schroeder também contribuíram para o desenvolvimento da codificação preditiva linear.

Anos 1970

Em 1975, o método de pares espectrais lineares foi desenvolvido por Itakura. Esse método de codificação de fala com alta compressão ajudou Itakura a se aprofundar na análise e síntese de fala, encontrando pontos fracos e buscando como melhorá-los.

Nesse mesmo ano, também foi lançado o MUSA. Esse sistema independente de síntese de fala utilizava um algoritmo para ler textos em italiano em voz alta. Uma versão lançada três anos depois já conseguia cantar em italiano.

Nos anos 70, foi desenvolvido o primeiro sintetizador articulatório baseado no trato vocal humano. O primeiro sintetizador conhecido foi desenvolvido por Tom Baer, Paul Mermelstein e Philip Rubin no Haskins Laboratories. O trio utilizou informações de modelos de trato vocal criados nos laboratórios Bell nas décadas de 60 e 70.

Em 1976, foram introduzidas as Máquinas de Leitura Kurzweil para cegos. Embora esses dispositivos fossem caros demais para o público em geral, as bibliotecas frequentemente os disponibilizavam para pessoas com deficiências visuais ouvirem livros.

A codificação preditiva linear tornou-se o ponto de partida para os chips sintetizadores. Os Chips de Fala LPC da Texas Instruments e os brinquedos Speak & Spell do final dos anos 1970 utilizavam essa tecnologia de chips sintetizadores. Esses brinquedos eram exemplos de síntese de voz humana com entonações precisas, diferenciando a voz das vozes sintetizadas com som robótico comuns na época. Muitos eletrônicos portáteis com capacidade de sintetizar fala tornaram-se populares nessa década, incluindo a calculadora Speech+ da Telesensory Systems para cegos. O Fidelity Voice Chess Challenger, um computador de xadrez capaz de sintetizar fala, foi lançado em 1979.

Anos 1980

Nos anos 1980, a síntese de fala começou a agitar o mundo dos videogames. O lançamento de 1980 de Stratovox (um jogo de fliperama de tiro) foi feito pela Sun Electronics. Manbiki Shoujo (traduzido para o inglês como Shoplifting Girl) foi o primeiro jogo de computador pessoal com capacidade de sintetizar fala. O jogo eletrônico Milton também foi lançado em 1980 – foi o primeiro jogo eletrônico da Milton Bradley Company que tinha a capacidade de sintetizar a voz humana.

Em 1983, surgiu a máquina acústico-mecânica independente chamada DECtalk. O DECtalk compreendia grafias fonéticas das palavras, permitindo a pronúncia personalizada de termos incomuns. Essas grafias fonéticas também podiam incluir um indicador de tom que o DECtalk usava ao enunciar os componentes fonéticos. Isso permitia que o DECtalk cantasse.

No final dos anos 80, Steve Jobs criou o NeXT, um sistema desenvolvido pela Trillium Sound Research. Embora o NeXT não tenha decolado, Jobs acabou incorporando o programa à Apple nos anos 90.

Anos 1990

Versões anteriores de sistemas sintetizados de texto para fala soavam claramente robóticas, mas isso começou a mudar no final dos anos 80 e início dos anos 90. Consoantes mais suaves permitiram que as máquinas de fala perdessem o aspecto eletrônico e soassem mais humanas. Em 1990, Ann Syrdal, nos laboratórios AT&T Bell, desenvolveu uma voz feminina de sintetizador de fala. Engenheiros trabalharam para tornar as vozes mais naturais ao longo dos anos 90.

Em 1999, a Microsoft lançou o Narrator, uma solução de leitor de tela que agora está incluída em todas as cópias do Microsoft Windows.

Anos 2000

A síntese de fala enfrentou alguns desafios durante os anos 2000, pois os desenvolvedores lutavam para criar padrões estabelecidos para a fala sintetizada. Como a fala é altamente individual, é difícil para pessoas ao redor do mundo entrarem em acordo sobre a pronúncia correta de fonemas, difones, entonação, tom, reprodução de padrões e inflexão.

A qualidade do áudio da fala sintetizada por formantes também se tornou uma preocupação nos anos 90, pois engenheiros e pesquisadores perceberam que a qualidade dos sistemas usados em laboratório para reproduzir fala sintetizada era frequentemente muito mais avançada do que o equipamento do usuário final. Ao pensar em síntese de fala, muitos lembram do sintetizador de voz de Stephen Hawking, que fornecia uma voz robótica com pouca tonalidade humana.

Em 2005, pesquisadores finalmente chegaram a algum consenso e começaram a utilizar um conjunto de dados comum de fala, permitindo que trabalhassem a partir dos mesmos princípios básicos ao criar sistemas avançados de síntese de fala.

Em 2007, um estudo mostrou que ouvintes conseguem perceber se uma pessoa que está falando está sorrindo. Pesquisadores continuam trabalhando para entender como usar essa informação para criar softwares de reconhecimento e síntese de fala mais naturais.

Anos 2010

Hoje, produtos de síntese de fala que usam sinais vocais estão por toda parte, de Siri a Alexa. Os sintetizadores eletrônicos de fala não só tornam a vida mais fácil – eles também a deixam mais divertida. Seja para usar um sistema TTS para ouvir romances em movimento ou para aplicativos que facilitam o aprendizado de um idioma estrangeiro, é bem provável que você esteja usando tecnologia de texto para fala para ativar suas redes neurais diariamente.

O futuro

Nos próximos anos, é provável que a tecnologia de síntese de voz foque na criação de um modelo do cérebro para compreender melhor como registramos dados de fala em nossas mentes. A tecnologia de fala também irá buscar entender melhor o papel da emoção na fala e usará essas informações para criar vozes de IA que sejam indistinguíveis das vozes humanas reais.

A mais recente tecnologia de síntese de voz: Speechify

Ao aprender sobre as transições das tecnologias anteriores de síntese de fala, é incrível imaginar o quanto a ciência evoluiu. Hoje, aplicativos como o Speechify facilitam transformar qualquer texto em arquivos de áudio. Com apenas um toque (ou clique no app), o Speechify consegue pegar sites, documentos e imagens de texto e convertê-los em fala com som natural. A biblioteca do Speechify sincroniza entre todos os seus dispositivos, tornando simples continuar aprendendo e trabalhando de onde estiver. Confira o aplicativo Speechify na App Store da Apple ou na loja do Android Google Play.

Perguntas frequentes

Quem inventou o texto para fala?

O texto para fala em inglês foi inventado por Noriko Umeda. O sistema foi desenvolvido no Laboratório Eletrotécnico do Japão em 1968.

Qual é o objetivo do texto para fala?

Muitas pessoas usam a tecnologia de texto para fala. Para quem prefere receber informações em formato de áudio, a tecnologia TTS torna simples obter o que é necessário para trabalhar ou estudar sem ter que passar horas em frente a um livro. Profissionais atarefados também usam TTS para se manterem atualizados no trabalho quando não podem ficar em frente ao computador. Muitos tipos de tecnologia TTS foram originalmente desenvolvidos para pessoas com deficiência visual, e TTS ainda é uma ótima forma de quem tem dificuldades de visão obter as informações de que precisa.

Como sintetizar uma fala?

Trechos de fala gravada são armazenados em um banco de dados em várias unidades. O software prepara arquivos de áudio por seleção de unidades. A partir daí, uma voz é criada. Em geral, quanto maior a amplitude de saída de um programa, mais ele tende a ter dificuldade em oferecer clareza vocal aos usuários.

Speechify é a principal plataforma mundial de texto para fala, utilizada por mais de 50 milhões de usuários e avaliada com mais de 500.000 avaliações cinco estrelas em seus apps de texto para fala para iOS, Android, extensão para Chrome, aplicativo web e aplicativo para desktop Mac. Em 2025, a Apple premiou o Speechify com o prestigioso Prêmio de Design da Apple na WWDC, chamando-o de “um recurso fundamental que ajuda as pessoas a viverem melhor”. O Speechify oferece mais de 1.000 vozes naturais em mais de 60 idiomas e é utilizado em quase 200 países. Entre as vozes de celebridades estão Snoop Dogg, Mr. Beast e Gwyneth Paltrow. Para criadores e empresas, o Speechify Studio oferece ferramentas avançadas, incluindo gerador de voz com IA, clonagem de voz com IA, dublagem com IA e seu alterador de voz com IA. O Speechify também potencializa produtos de ponta com sua API de texto para fala de alta qualidade e excelente custo-benefício. Em destaque no The Wall Street Journal, na CNBC, na Forbes, no TechCrunch e em outros grandes veículos de notícias, o Speechify é o maior provedor de texto para fala do mundo. Acesse speechify.com/news, speechify.com/blog e speechify.com/press para saber mais.