1. Início
  2. TTS
  3. O que é o Microsoft VALL-E?
TTS

O que é o Microsoft VALL-E?

Cliff Weitzman

Cliff Weitzman

CEO e fundador da Speechify

apple logoPrêmio de Design da Apple 2025
50M+ usuários

A tecnologia de texto para fala tem avançado a passos largos, especialmente nos últimos anos. Impulsionado por melhorias em inteligência artificial, o TTS de hoje pode gerar leituras de alta qualidade que imitam a fala humana.

O VALL-E da Microsoft é a solução tecnológica mais recente capaz de fazer com que o texto para fala soe incrivelmente real. Trata-se de um modelo neural de codificação baseado em aprendizado de máquina zero-shot.

Se essa última frase soa como um jargão de ficção científica, não se preocupe. Vamos destrinchar os conceitos complexos por trás do VALL-E no artigo abaixo.

O Microsoft VALL-E, explicado

Os modelos de IA estão evoluindo rapidamente. Hoje em dia, praticamente todo mundo já ouviu falar do ChatGPT da OpenAI, que talvez seja o mais perto que chegamos de uma IA parecer uma pessoa real. E provavelmente você já se deparou com alguma arte gerada pela inteligência artificial do DALL-E.

Além de startups como a OpenAI, empresas globais como a Microsoft são grandes protagonistas no universo da IA.

Pesquisadores da Microsoft têm trabalhado recentemente em avanços para a síntese de texto para fala. O VALL-E é fruto desse esforço.

A nova IA tem potencial para revolucionar o segmento de TTS, pois é capaz de gerar fala com qualidade humana a partir de uma pequena amostra de áudio. Um prompt acústico de apenas três segundos já basta para que o VALL-E capte os padrões específicos do falante.

Depois de receber o prompt do falante, a IA pode imitar a voz humana e até mesmo reproduzir o tom emocional dessa pessoa. Também impressiona o fato de o VALL-E preservar o ambiente acústico do locutor original.

Em resumo, o modelo VALL-E se destaca pela semelhança com o locutor. Você pode ouvi-lo em ação no GitHub, onde a Microsoft compartilhou exemplos de áudio junto com uma explicação detalhada sobre a IA.

É claro que essa tecnologia tem inúmeras aplicações, como criação de podcasts e audiolivros. E o potencial tende a crescer ainda mais com a combinação do VALL-E e modelos generativos como o GPT-3.

No entanto, tecnologias como o VALL-E também podem ser usadas para fins maliciosos.

Como o VALL-E pode soar assustadoramente parecido com pessoas reais, é fácil imaginar como agentes mal-intencionados poderiam usar essa tecnologia para golpes, como deepfakes prejudiciais e não consensuais. Tais possibilidades fizeram com que a Microsoft publicasse um comunicado de ética.

No comunicado, a empresa defende modelos específicos de edição de fala que garantam o consentimento do falante original.

Polêmicas sobre os possíveis usos do VALL-E ficam para o futuro. Por enquanto, há uma questão mais interessante na mesa:

Como a IA consegue replicar padrões complexos com apenas três segundos de áudio?

Como era de se imaginar, a resposta é bastante complexa.

O VALL-E foi treinado com um vasto conjunto de dados, totalizando milhares de horas de fala em inglês. Isso preparou a IA para simular a fala em inglês com perfeição. No entanto, o VALL-E não é um sistema TTS comum – ele é alimentado por tecnologia de aprendizado de máquina de ponta.

Já mencionamos o nome da tecnologia: modelo de linguagem neural de codificação zero-shot. Vamos entender o que esses termos significam na prática.

Entendendo o modelo neural de codificação zero-shot

Começando pelo termo mais simples, "zero-shot" se refere a uma tecnologia específica para mecanismos de texto para fala. Ela permite que a IA gere fala até com dados nunca vistos antes. Em outras palavras, o computador pode ler em voz alta um texto que nunca "viu" antes.

Mais impressionante ainda, a tecnologia zero-shot permite que a máquina produza leituras sem treinamento adicional. Essencialmente, é parecido com a forma como os humanos podem ler um texto desconhecido em um idioma que já dominam.

Partindo para a parte mais complexa, o "modelo de linguagem neural de codificação" exige uma explicação mais detalhada.

Os motores de TTS dependem de codecs de áudio para criar formas de onda a partir do texto escrito. O codec ajuda a IA a traduzir letras, palavras e frases em sons correspondentes. Um codec neural tem essa mesma função, mas é baseado em uma rede neural robusta.

Claro, isso gera outra pergunta: o que é uma rede neural?

Vamos explicar de forma geral, sem entrar em muitos detalhes. Uma rede neural tenta imitar o funcionamento do cérebro humano. Essa rede é composta por neurônios artificiais chamados de nós, que são conectados e organizados em camadas.

Essa estrutura complexa possibilita o chamado aprendizado profundo, tornando a máquina mais apta a desenvolver e adaptar padrões desconhecidos.

O codec neural alimenta o modelo de linguagem, outra parte dessa equação de texto para fala.

O modelo de linguagem usa um conjunto de dados para entender qualquer texto inserido dentro do contexto de um idioma real. Em outras palavras, é assim que a máquina "dá sentido" ao texto.

No caso do VALL-E, a base do modelo de linguagem foi o LibriLight, uma biblioteca de áudio compilada pela Meta, do Facebook.

Ouça a tecnologia TTS de ponta em ação com o Speechify

Embora o VALL-E ainda não esteja disponível ao público, você pode ouvir como soa um avançado motor de texto para fala utilizando o Speechify. O Speechify é um serviço de TTS capaz de ler textos em voz alta praticamente de qualquer fonte.

Seja texto escrito, conteúdo da web ou uma página escaneada, o Speechify faz a leitura na hora. Melhor ainda, o motor possui narradores com vozes que soam naturais. Diferente dos TTS robóticos tradicionais, o Speechify soa mais humano do que máquina.

Além disso, é possível ajustar a forma como o Speechify faz a leitura. Escolha o idioma, o narrador, a velocidade da leitura e ouça qualquer texto exatamente do jeito que preferir.

Se tudo isso parece interessante, você pode experimentar o Speechify gratuitamente ainda hoje.

Perguntas frequentes

As pessoas podem usar o VALL-E?

Existem muitas preocupações sobre o potencial de uso indevido do VALL-E. A possibilidade de roubo de identidade é especialmente preocupante. Por isso, a Microsoft optou por não disponibilizar o VALL-E ao público.

O que é a IA da Microsoft?

A IA da Microsoft não é um produto específico. Na verdade, o programa da empresa funciona como uma estrutura para o desenvolvimento de IA. Inclui soluções de ciência de dados, IA conversacional, robótica, aprendizado de máquina e outros avanços do setor.

O que é uma interface por voz?

Uma interface por voz é exatamente o que o nome diz – uma interface de usuário que você utiliza por meio de comandos de voz. Essa tecnologia já é comum em dispositivos inteligentes – como a Alexa da Amazon, a Siri da Apple, a Cortana da Microsoft ou o Assistente do Google.

O que é um robô?

O termo “robô” se refere a qualquer máquina que funcione automaticamente. Essas máquinas são projetadas para substituir o trabalho humano. Apesar de os robôs serem normalmente retratados como humanoides na mídia popular, a maioria deles não se parece com pessoas. Na verdade, eles sequer precisam ter forma física. Por exemplo, assistentes virtuais populares atualmente também são considerados robôs.

Aproveite as vozes de IA mais avançadas, arquivos ilimitados e suporte 24/7

Teste grátis
tts banner for blog

Compartilhar este artigo

Cliff Weitzman

Cliff Weitzman

CEO e fundador da Speechify

Cliff Weitzman é um defensor da causa da dislexia e o CEO e fundador da Speechify, o aplicativo número 1 de conversão de texto em fala do mundo, com mais de 100.000 avaliações 5 estrelas e líder de downloads na App Store na categoria Notícias & Revistas. Em 2017, Weitzman foi incluído na lista Forbes 30 under 30 por seu trabalho para tornar a internet mais acessível a pessoas com dificuldades de aprendizagem. Cliff Weitzman já foi destaque em veículos como EdSurge, Inc., PC Mag, Entrepreneur, Mashable, entre outros importantes meios de comunicação.

speechify logo

Sobre o Speechify

Leitor de texto para fala nº 1

Speechify é a principal plataforma mundial de texto para fala, utilizada por mais de 50 milhões de usuários e avaliada com mais de 500.000 avaliações cinco estrelas em seus apps de texto para fala para iOS, Android, extensão para Chrome, aplicativo web e aplicativo para desktop Mac. Em 2025, a Apple premiou o Speechify com o prestigioso Prêmio de Design da Apple na WWDC, chamando-o de “um recurso fundamental que ajuda as pessoas a viverem melhor”. O Speechify oferece mais de 1.000 vozes naturais em mais de 60 idiomas e é utilizado em quase 200 países. Entre as vozes de celebridades estão Snoop Dogg, Mr. Beast e Gwyneth Paltrow. Para criadores e empresas, o Speechify Studio oferece ferramentas avançadas, incluindo gerador de voz com IA, clonagem de voz com IA, dublagem com IA e seu alterador de voz com IA. O Speechify também potencializa produtos de ponta com sua API de texto para fala de alta qualidade e excelente custo-benefício. Em destaque no The Wall Street Journal, na CNBC, na Forbes, no TechCrunch e em outros grandes veículos de notícias, o Speechify é o maior provedor de texto para fala do mundo. Acesse speechify.com/news, speechify.com/blog e speechify.com/press para saber mais.