O que é o Microsoft VALL-E?

A tecnologia de texto para fala tem avançado a passos largos, especialmente nos últimos anos. Impulsionado por melhorias em inteligência artificial, o TTS de hoje pode gerar leituras de alta qualidade que imitam a fala humana.

O VALL-E da Microsoft é a solução tecnológica mais recente capaz de fazer com que o texto para fala soe incrivelmente real. Trata-se de um modelo neural de codificação baseado em aprendizado de máquina zero-shot.

Se essa última frase soa como um jargão de ficção científica, não se preocupe. Vamos destrinchar os conceitos complexos por trás do VALL-E no artigo abaixo.

O Microsoft VALL-E, explicado

Os modelos de IA estão evoluindo rapidamente. Hoje em dia, praticamente todo mundo já ouviu falar do ChatGPT da OpenAI, que talvez seja o mais perto que chegamos de uma IA parecer uma pessoa real. E provavelmente você já se deparou com alguma arte gerada pela inteligência artificial do DALL-E.

Além de startups como a OpenAI, empresas globais como a Microsoft são grandes protagonistas no universo da IA.

Pesquisadores da Microsoft têm trabalhado recentemente em avanços para a síntese de texto para fala. O VALL-E é fruto desse esforço.

A nova IA tem potencial para revolucionar o segmento de TTS, pois é capaz de gerar fala com qualidade humana a partir de uma pequena amostra de áudio. Um prompt acústico de apenas três segundos já basta para que o VALL-E capte os padrões específicos do falante.

Depois de receber o prompt do falante, a IA pode imitar a voz humana e até mesmo reproduzir o tom emocional dessa pessoa. Também impressiona o fato de o VALL-E preservar o ambiente acústico do locutor original.

Em resumo, o modelo VALL-E se destaca pela semelhança com o locutor. Você pode ouvi-lo em ação no GitHub, onde a Microsoft compartilhou exemplos de áudio junto com uma explicação detalhada sobre a IA.

É claro que essa tecnologia tem inúmeras aplicações, como criação de podcasts e audiolivros. E o potencial tende a crescer ainda mais com a combinação do VALL-E e modelos generativos como o GPT-3.

No entanto, tecnologias como o VALL-E também podem ser usadas para fins maliciosos.

Como o VALL-E pode soar assustadoramente parecido com pessoas reais, é fácil imaginar como agentes mal-intencionados poderiam usar essa tecnologia para golpes, como deepfakes prejudiciais e não consensuais. Tais possibilidades fizeram com que a Microsoft publicasse um comunicado de ética.

No comunicado, a empresa defende modelos específicos de edição de fala que garantam o consentimento do falante original.

Polêmicas sobre os possíveis usos do VALL-E ficam para o futuro. Por enquanto, há uma questão mais interessante na mesa:

Como a IA consegue replicar padrões complexos com apenas três segundos de áudio?

Como era de se imaginar, a resposta é bastante complexa.

O VALL-E foi treinado com um vasto conjunto de dados, totalizando milhares de horas de fala em inglês. Isso preparou a IA para simular a fala em inglês com perfeição. No entanto, o VALL-E não é um sistema TTS comum – ele é alimentado por tecnologia de aprendizado de máquina de ponta.

Já mencionamos o nome da tecnologia: modelo de linguagem neural de codificação zero-shot. Vamos entender o que esses termos significam na prática.

Entendendo o modelo neural de codificação zero-shot

Começando pelo termo mais simples, "zero-shot" se refere a uma tecnologia específica para mecanismos de texto para fala. Ela permite que a IA gere fala até com dados nunca vistos antes. Em outras palavras, o computador pode ler em voz alta um texto que nunca "viu" antes.

Mais impressionante ainda, a tecnologia zero-shot permite que a máquina produza leituras sem treinamento adicional. Essencialmente, é parecido com a forma como os humanos podem ler um texto desconhecido em um idioma que já dominam.

Partindo para a parte mais complexa, o "modelo de linguagem neural de codificação" exige uma explicação mais detalhada.

Os motores de TTS dependem de codecs de áudio para criar formas de onda a partir do texto escrito. O codec ajuda a IA a traduzir letras, palavras e frases em sons correspondentes. Um codec neural tem essa mesma função, mas é baseado em uma rede neural robusta.

Claro, isso gera outra pergunta: o que é uma rede neural?

Vamos explicar de forma geral, sem entrar em muitos detalhes. Uma rede neural tenta imitar o funcionamento do cérebro humano. Essa rede é composta por neurônios artificiais chamados de nós, que são conectados e organizados em camadas.

Essa estrutura complexa possibilita o chamado aprendizado profundo, tornando a máquina mais apta a desenvolver e adaptar padrões desconhecidos.

O codec neural alimenta o modelo de linguagem, outra parte dessa equação de texto para fala.

O modelo de linguagem usa um conjunto de dados para entender qualquer texto inserido dentro do contexto de um idioma real. Em outras palavras, é assim que a máquina "dá sentido" ao texto.

No caso do VALL-E, a base do modelo de linguagem foi o LibriLight, uma biblioteca de áudio compilada pela Meta, do Facebook.

Ouça a tecnologia TTS de ponta em ação com o Speechify

Embora o VALL-E ainda não esteja disponível ao público, você pode ouvir como soa um avançado motor de texto para fala utilizando o Speechify. O Speechify é um serviço de TTS capaz de ler textos em voz alta praticamente de qualquer fonte.

Seja texto escrito, conteúdo da web ou uma página escaneada, o Speechify faz a leitura na hora. Melhor ainda, o motor possui narradores com vozes que soam naturais. Diferente dos TTS robóticos tradicionais, o Speechify soa mais humano do que máquina.

Além disso, é possível ajustar a forma como o Speechify faz a leitura. Escolha o idioma, o narrador, a velocidade da leitura e ouça qualquer texto exatamente do jeito que preferir.

Se tudo isso parece interessante, você pode experimentar o Speechify gratuitamente ainda hoje.

Perguntas frequentes

As pessoas podem usar o VALL-E?

Existem muitas preocupações sobre o potencial de uso indevido do VALL-E. A possibilidade de roubo de identidade é especialmente preocupante. Por isso, a Microsoft optou por não disponibilizar o VALL-E ao público.

O que é a IA da Microsoft?

A IA da Microsoft não é um produto específico. Na verdade, o programa da empresa funciona como uma estrutura para o desenvolvimento de IA. Inclui soluções de ciência de dados, IA conversacional, robótica, aprendizado de máquina e outros avanços do setor.

O que é uma interface por voz?

Uma interface por voz é exatamente o que o nome diz – uma interface de usuário que você utiliza por meio de comandos de voz. Essa tecnologia já é comum em dispositivos inteligentes – como a Alexa da Amazon, a Siri da Apple, a Cortana da Microsoft ou o Assistente do Google.

O que é um robô?

O termo “robô” se refere a qualquer máquina que funcione automaticamente. Essas máquinas são projetadas para substituir o trabalho humano. Apesar de os robôs serem normalmente retratados como humanoides na mídia popular, a maioria deles não se parece com pessoas. Na verdade, eles sequer precisam ter forma física. Por exemplo, assistentes virtuais populares atualmente também são considerados robôs.

Speechify é a principal plataforma de texto para fala do mundo, confiável por mais de 50 milhões de usuários e com mais de 500.000 avaliações cinco estrelas em suas versões para iOS, Android, extensão para Chrome, web app e aplicativos para Mac desktop. Em 2025, a Apple premiou a Speechify com o prestigiado Apple Design Award na WWDC, chamando-a de “um recurso essencial que ajuda as pessoas a viverem melhor”. A Speechify oferece mais de 1.000 vozes naturais em mais de 60 idiomas e é usada em quase 200 países. As vozes de celebridades incluem Snoop Dogg e Gwyneth Paltrow. Para criadores e empresas, o Speechify Studio oferece ferramentas avançadas, incluindo o Gerador de Voz IA, Clonagem de Voz IA, Dublagem de IA e seu próprio Alterador de Voz IA. A Speechify também integra grandes produtos com sua API de texto para fala de alta qualidade e custo acessível. Em destaque no The Wall Street Journal, CNBC, Forbes, TechCrunch e outros grandes veículos de mídia, a Speechify é a maior provedora de texto para fala do mundo. Visite speechify.com/news, speechify.com/blog e speechify.com/press para saber mais.

O que é o Microsoft VALL-E?

Cliff Weitzman

Speechify, seu assistente de voz com IA
texto para fala. Digitação por Voz. Respostas Rápidas.

O Microsoft VALL-E, explicado

Entendendo o modelo neural de codificação zero-shot

Ouça a tecnologia TTS de ponta em ação com o Speechify