Pesquisador do Speechify AI Research Lab tem artigo PFluxTTS aceito na ICASSP 2026

Speechify anunciou hoje que o pesquisador do AI Research Lab da Speechify, Vikentii Pankov, é um dos autores de “PFluxTTS: Hybrid Flow Matching TTS with Robust Cross Lingual Voice Cloning and Inference Time Model Fusion”, artigo aceito na IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2026.

O trabalho apresenta o PFluxTTS, um sistema híbrido de texto para fala criado para aprimorar a prontidão de produção para clonagem de voz e prompts multilíngues. O artigo descreve uma abordagem que mira três lacunas persistentes em geração de fala baseada em flow matching: o equilíbrio entre estabilidade e naturalidade, a dificuldade em preservar a identidade vocal entre idiomas e a fidelidade limitada ao reconstruir áudio em largura de banda total a partir de características acústicas de menor resolução.

Um pré-print do artigo está disponível publicamente no arXiv, e demonstrações de áudio acompanham o trabalho no site do projeto.

O que significa essa aceitação na ICASSP 2026 para o direcionamento da pesquisa da Speechify?

A ICASSP é uma das principais conferências de pesquisa em fala, áudio e processamento de sinais, e essa aceitação reflete o reconhecimento, pela comunidade científica, de contribuições técnicas revisadas por pares que avançam o estado da arte. No contexto da estratégia mais ampla da Speechify, essa conquista reforça a posição da Speechify como uma empresa de IA com foco em voz, investindo não só em funcionalidades de produto, mas também em pesquisa fundamental.

Speechify desenvolve e aprimora tecnologias de voz para texto para fala, fala para texto e fluxos de fala para fala que impulsionam experiências reais dos usuários, incluindo escuta de textos longos, reprodução em alta velocidade, ditado e interação com voz baseada em documentos. Quando pesquisadores da Speechify publicam trabalhos aceitos em grandes conferências, isso confirma que a Speechify está na linha de frente da pesquisa que molda como os sistemas de voz serão construídos e avaliados nos próximos anos.

O que é o PFluxTTS e qual problema ele resolve?

O PFluxTTS é descrito como um sistema de flow matching híbrido de texto para fala que combina dois estilos de modelos em um único processo de inferência. Segundo o artigo, um caminho é guiado por duração, o que tende a melhorar a estabilidade do alinhamento e a reduzir problemas como o salto de palavras. O outro caminho é livre de alinhamento, o que melhora a fluência e a naturalidade perceptível. O PFluxTTS une ambos por meio da fusão dos campos vetoriais em tempo de inferência; em outras palavras, o sistema combina a orientação dos dois modelos durante a geração, em vez de escolher apenas uma família de modelos.

Isso é relevante porque muitas equipes que criam produtos de voz percebem que modelos que soam bem em demonstrações curtas ainda podem falhar em situações reais, especialmente quando os prompts são ruidosos, multilíngues ou conversacionais. Em produção, um sistema de voz precisa ser inteligível, preservar a identidade vocal e manter a estabilidade temporal em diferentes conteúdos e condições de gravação.

Como o PFluxTTS melhora a confiabilidade da clonagem de voz entre idiomas?

A clonagem de voz multilíngue é difícil porque a identidade vocal não é um vetor estático único. As características reais do locutor variam ao longo do tempo, em diferentes contextos fonéticos e em distintas condições de gravação. O artigo argumenta que embeddings com dimensão fixa do locutor podem descartar pistas de timbre variáveis no tempo, que se tornam importantes quando a língua do prompt é diferente da língua de destino.

O PFluxTTS aborda esse desafio condicionando a geração a uma sequência dos embeddings do prompt de fala dentro de um decodificador baseado em FLUX, projetado para preservar melhor as características vocais do locutor em diferentes idiomas, sem exigir transcrições do prompt.

O resultado é um sistema projetado para manter as características de quem está falando, mesmo quando o prompt está em um idioma e a fala gerada em outro, e mesmo quando os prompts são capturados em ambientes variados em vez de estúdios.

O que significa “fusão de modelos em tempo de inferência” em linguagem simples?

A maioria dos sistemas escolhe uma única família de modelos e convive com suas limitações. O PFluxTTS adota uma abordagem híbrida no momento da geração. O artigo descreve a fusão de dois campos vetoriais treinados independentemente durante uma única integração ODE, permitindo que o sistema use o caminho guiado por duração para estabilizar o alinhamento no início e, depois, deixe o caminho livre para focar em fluência e naturalidade nos passos finais.

Em termos simples, o sistema foi pensado para começar seguro e estável e terminar expressivo e natural — uma forma prática de reduzir o clássico dilema entre “ou estável ou natural” que as equipes geralmente enfrentam ao implementar modelos de voz em larga escala.

Como o PFluxTTS lida com qualidade de áudio e reconstrução em 48 kHz?

Muitos pipelines de TTS geram espectrogramas de mel em uma resolução que não representa totalmente os detalhes das frequências altas e dependem de um vocoder para reconstruir o áudio. O artigo apresenta um vocoder PeriodWave modificado que usa uma abordagem de super-resolução para produzir reconstrução em 48 kHz do áudio a partir de características de mel de baixa taxa.

Para usuários e desenvolvedores, reconstruções em banda larga podem significar sibilantes mais claras, transientes mais limpos e textura de alta frequência mais realista, especialmente em narração profissional ou em audição prolongada, onde artefatos tendem a ficar mais evidentes com o tempo.

Quais são as alegações de desempenho relatadas no artigo?

O resumo do arXiv informa que, em dados multilíngues capturados em ambientes do mundo real, o PFluxTTS supera diversas bases abertas citadas no resumo, consegue igualar uma referência líder em naturalidade enquanto melhora métricas de inteligibilidade e apresenta maior similaridade vocal que um importante sistema comercial no cenário relatado.

Speechify incentiva pesquisadores, desenvolvedores e parceiros a avaliarem diretamente o trabalho por meio do pré-print público e das demonstrações em áudio, criadas para tornar os resultados audíveis e comparáveis em condições realistas de prompts multilíngues.

Onde os leitores podem encontrar o artigo e as demos para citar e compartilhar?

O pré-print do PFluxTTS está disponível no arXiv sob o identificador 2602.04160, e o site do projeto hospeda o resumo do artigo e amostras de áudio.

Por que isso é importante para o futuro da Voice AI da Speechify?

A Voice AI está saindo do estágio de demonstrações para se tornar parte da infraestrutura do dia a dia. Essa mudança eleva o padrão. Os sistemas precisam ser estáveis em sessões longas, lidar com prompts multilíngues, preservar a identidade do locutor e entregar latência e inteligibilidade previsíveis em condições reais de uso.

Speechify foca suas pesquisas nessas necessidades de produção. Trabalhos como o PFluxTTS seguem a direção da pesquisa moderna em fala: arquiteturas híbridas que fecham o gap entre estabilidade e naturalidade, métodos avançados de clonagem de voz que funcionam em vários idiomas e pipelines fim a fim que melhoram a qualidade do áudio final, indo além das características intermediárias.

Speechify continuará investindo em pesquisas que avancem a voice AI prática, publicando descobertas nos principais eventos e traduzindo esses avanços em qualidade de produto para usuários e em infraestrutura de voz confiável para desenvolvedores criarem experiências centradas em voz.

Sobre a Speechify

Speechify é uma empresa de IA com foco em voz que ajuda pessoas a ler, escrever e compreender informações usando a fala. Confiada por mais de 50 milhões de usuários em todo o mundo, a Speechify oferece leitura e escrita com IA, podcasts com IA, anotações com IA, reuniões com IA e IA para produtividade em plataformas para consumidores e empresas. A pesquisa proprietária em voz e o desenvolvimento de modelos da Speechify proporcionam fala realista em mais de 60 idiomas e são usados globalmente em diversos contextos de trabalho intelectual e acessibilidade.