1. Início
  2. TTS
  3. O que é o Google WaveNet
TTS

O que é o Google WaveNet

Tyler Weitzman

Tyler Weitzman

Mestre em Ciência da Computação por Stanford, defensor da dislexia e da acessibilidade, CEO e fundador da Speechify

apple logoPrêmio de Design da Apple 2025
50M+ usuários

Muitas pessoas usam serviços de texto para fala todos os dias, assim como assistentes virtuais. Mas o que talvez não saibam é que ambos compartilham muitos recursos no modo de funcionamento. Conforme a tecnologia avança, a qualidade dos aplicativos que usamos no dia a dia também melhora.

O mesmo vale para aplicativos TTS e VAs. Há algumas empresas que se destacam bastante nesse campo, e uma delas é o Google, com sua tecnologia WaveNet.

O que é o Google WaveNet?

WaveNet é uma rede neural artificial projetada para gerar áudio bruto. A equipe por trás da tecnologia é a DeepMind, uma empresa de Londres especializada em inteligência artificial. A chegada dessa tecnologia trouxe uma grande mudança para a plataforma Google Cloud e elevou tudo a outro patamar.

Uma das principais vantagens que a DeepMind, do Google, trouxe em relação aos sistemas de texto para fala anteriores é que ela soa muito melhor. Quando foi apresentada em 2016, os sistemas TTS não conseguiam criar uma voz com som natural.

O texto para fala do WaveNet superou todos os outros em todos os aspectos. A ideia por trás dessa tecnologia é bem simples. O software consegue usar arquivos de áudio brutos, como WAV, como entrada e se beneficia da conectividade com a API do Google e de uma chave de API.

Hoje, temos inúmeras formas de usar essa tecnologia, graças à nossa capacidade de aproveitar esses algoritmos complexos. Muitas empresas ao redor do mundo estão competindo entre si para entregar o melhor produto possível. E isso é ótimo. Para o usuário final, significa apenas mais opções e mais facilidade para encontrar um programa que atenda às suas necessidades.

Como funciona o WaveNet

O WaveNet é uma versão de FNN ou rede neural feedforward, também conhecida como rede neural convolucional profunda. A CNN recebe o sinal bruto de entrada e consegue sintetizar a saída, uma amostra de cada vez.

Claro, a base de tudo são o machine learning, o processamento de linguagem natural, o deep learning e a inteligência de máquina. Em versões anteriores de aplicativos de texto para fala, a ideia era criar um banco de dados de fonemas, e o aplicativo escolheria o correto, ou pelo menos o que mais se aproximasse do som desejado.

Mas montar esse tipo de quebra-cabeça não é fácil. O software precisa entender como a linguagem funciona, incluindo o ritmo e a dinâmica, caso contrário, os sons reproduzidos pelos alto-falantes acabam soando artificiais.

Assim como a maioria dos programas de texto para fala, o WaveNet também utiliza formas de onda de áudio reais — pense em modelos paramétricos ou concatenativos, só para citar alguns. Dessa forma, o software consegue analisar as regras do idioma (ou melhor, dos sons) e como elas mudam com o tempo.

Isso permite que o programa gere padrões que soam como fala humana, com base em amostras de fala. O impressionante é que o software produz a saída conforme as informações que recebe.

Veja o que isso significa na prática: se você fala italiano, por exemplo, o programa pode ajudá-lo a produzir fala em italiano. Isso representou uma grande mudança na época e abriu caminho para outras APIs de texto para fala.

Exemplos do WaveNet em ação

Quando o Google apresentou o software, era necessário muito poder de processamento para utilizá-lo na vida real. Mas tudo isso mudou nos anos seguintes. Essa API inicialmente ajudou a dar voz ao Google Assistente, que a empresa disponibilizou em várias plataformas.

O WaveNet também é uma ótima opção se você está procurando um software de texto para fala. A voz soa mais realista, tornando a experiência muito mais agradável. Você pode usá-lo para ouvir as últimas notícias, transcrições de podcasts ou qualquer outra coisa que imaginar.

E isso é só o começo. Toda a ideia por trás do processo também pode ajudar pessoas com deficiência de fala a recuperar suas vozes. Síntese de voz é o termo usado para imitação de voz, e seu potencial é incrível. Por exemplo, pessoas com deficiência de fala podem, em teoria, usar uma amostra da própria voz e integrá-la com ferramentas de texto para fala. Isso pode devolver a voz a essas pessoas.

Ainda não sabemos tudo o que o futuro reserva para os programas de texto para fala, mas podemos apostar que será algo incrível. Uma das melhores coisas nessa área de inovação é que existem várias empresas trabalhando com TTS.

Quando todo mundo trabalha com o mesmo objetivo em mente, é bem mais provável que vejamos resultados impressionantes.

Speechify - Síntese de voz

Entre os programas que você precisa conhecer o quanto antes está o Speechify. É um aplicativo de texto para fala, e você pode usá-lo em praticamente qualquer dispositivo. Está disponível para iOS, Android, Mac e até como extensão para o Google Chrome.

O Speechify consegue lidar com praticamente qualquer tipo de conteúdo. Ele pode ler PDFs, documentos, e-mails ou qualquer outra coisa no seu dispositivo. Uma das grandes vantagens do app é sua versatilidade e capacidade de personalização.

Você pode mudar a velocidade da leitura, escolher diferentes vozes, ajustar o tom e assim por diante. Vale mencionar também que o Speechify oferece função OCR, o que significa que você pode tirar uma foto do seu livro e o app vai ler para você.

O aplicativo foi desenvolvido especialmente para pessoas com dislexia, TDA, para quem está aprendendo um novo idioma ou qualquer pessoa que queira ser mais produtiva enquanto lê um livro. É um aplicativo tudo-em-um que vai mudar a forma como você enxerga a leitura.

O Speechify é fácil de usar e você não vai precisar de um tutorial elaborado para entender como ele funciona.

FAQ

Para que serve o WaveNet?

É uma rede neural profunda capaz de criar áudio bruto. É uma solução de síntese de texto para fala que oferece vozes WaveNet com som realista, podendo ser treinada usando gravações reais de fala. Como resultado, superou com sucesso o texto para fala do Google Cloud.

Hoje, o software é utilizado para as vozes do Google Assistente.

O que é o modelo WaveNet?

O modelo é baseado na arquitetura PixelCNN. Para lidar com dependências de longo alcance necessárias para criar a saída do áudio bruto, a arquitetura utiliza convoluções causais dilatadas.

A adição de CNNs dilatadas permite treinos mais fáceis e rápidos, podendo alcançar mil camadas atrás no tempo. Também pode operar 20 vezes mais rápido que em tempo real.

Qual a diferença entre WaveNet e Redes Neurais Convolucionais?

O software é baseado em redes neurais convolucionais profundas, ou CNN. Isso significa que o WaveNet é apenas uma das aplicações das CNNs. Uma tecnologia semelhante é usada por empresas como Microsoft ou Amazon (junto com SSML), oferecendo alta qualidade e ótimos resultados.

Na hora de escolher o melhor app de texto para fala, fique com o Speechify. Embora outras plataformas ofereçam vantagens pontuais, o Speechify é fácil de usar, não tem complicação, oferece experiências gratuitas e é intuitivo para qualquer pessoa que queira transformar texto em fala.

Aproveite as vozes de IA mais avançadas, arquivos ilimitados e suporte 24/7

Teste grátis
tts banner for blog

Compartilhar este artigo

Tyler Weitzman

Tyler Weitzman

Mestre em Ciência da Computação por Stanford, defensor da dislexia e da acessibilidade, CEO e fundador da Speechify

Tyler Weitzman é cofundador, chefe de Inteligência Artificial e presidente da Speechify, o aplicativo número 1 de conversão de texto em fala do mundo, com mais de 100.000 avaliações cinco estrelas. Weitzman se formou na Universidade de Stanford, onde concluiu o bacharelado em Matemática e o mestrado em Ciência da Computação com ênfase em Inteligência Artificial. Ele foi reconhecido pela revista Inc. como um dos 50 principais empreendedores e já foi destaque em publicações como Business Insider, TechCrunch, LifeHacker, CBS, entre outras. Sua pesquisa de mestrado teve como foco inteligência artificial e conversão de texto em fala, com o trabalho final intitulado “CloneBot: Personalized Dialogue-Response Predictions”.

speechify logo

Sobre o Speechify

Leitor de texto para fala nº 1

Speechify é a principal plataforma mundial de texto para fala, utilizada por mais de 50 milhões de usuários e avaliada com mais de 500.000 avaliações cinco estrelas em seus apps de texto para fala para iOS, Android, extensão para Chrome, aplicativo web e aplicativo para desktop Mac. Em 2025, a Apple premiou o Speechify com o prestigioso Prêmio de Design da Apple na WWDC, chamando-o de “um recurso fundamental que ajuda as pessoas a viverem melhor”. O Speechify oferece mais de 1.000 vozes naturais em mais de 60 idiomas e é utilizado em quase 200 países. Entre as vozes de celebridades estão Snoop Dogg, Mr. Beast e Gwyneth Paltrow. Para criadores e empresas, o Speechify Studio oferece ferramentas avançadas, incluindo gerador de voz com IA, clonagem de voz com IA, dublagem com IA e seu alterador de voz com IA. O Speechify também potencializa produtos de ponta com sua API de texto para fala de alta qualidade e excelente custo-benefício. Em destaque no The Wall Street Journal, na CNBC, na Forbes, no TechCrunch e em outros grandes veículos de notícias, o Speechify é o maior provedor de texto para fala do mundo. Acesse speechify.com/news, speechify.com/blog e speechify.com/press para saber mais.