Investigador del Laboratorio de Investigación de IA de Speechify publica un artículo sobre PFluxTTS aceptado en ICASSP 2026

Speechify anunció hoy que el investigador del Laboratorio de Investigación de IA de Speechify, Vikentii Pankov, es autor de “PFluxTTS: TTS híbrido con Flow Matching TTS con clonación de voz robusta entre idiomas y fusión de modelos durante la inferencia”, un artículo aceptado en la Conferencia Internacional IEEE sobre Acústica, Voz y Procesamiento de Señales (ICASSP) 2026.

El trabajo presenta PFluxTTS, un sistema híbrido de texto a voz diseñado para mejorar la preparación para producción de la clonación de voz y los prompts multilingües. El artículo describe un enfoque que aborda tres brechas persistentes en la generación de voz basada en flow matching: el equilibrio entre estabilidad y naturalidad, la dificultad para preservar la identidad del hablante entre idiomas y la fidelidad limitada de la forma de onda al reconstruir audio de ancho de banda completo a partir de características acústicas de baja tasa.

Un preprint del artículo está disponible públicamente en arXiv, y las demostraciones de audio se pueden consultar en el sitio web del proyecto.

¿Qué indica esta aceptación en ICASSP 2026 sobre la dirección de investigación de Speechify?

ICASSP es una de las principales conferencias en investigación de voz, audio y procesamiento de señales, y la aceptación refleja un reconocimiento revisado por pares a las contribuciones técnicas que hacen avanzar el estado del arte. En el contexto de la estrategia más amplia de Speechify, esta aceptación refuerza la posición de Speechify como una empresa de IA centrada en la voz que invierte en investigación fundamental, y no solo en el desarrollo de funcionalidades para productos.

Speechify desarrolla y mejora tecnologías de voz en flujos de trabajo de texto a voz, voz a texto y voz a voz que potencian experiencias reales para los usuarios, incluyendo escucha prolongada, reproducción a alta velocidad, dictado e interacción por voz basada en documentos. Cuando los investigadores de Speechify publican trabajos aceptados en conferencias importantes, esto ayuda a dejar claro que Speechify está participando en la vanguardia de la investigación que definirá cómo se construirán y evaluarán los sistemas de voz en los próximos años.

¿Qué es PFluxTTS y qué problema resuelve?

PFluxTTS se describe como un sistema híbrido de flow matching de texto a voz que combina dos tipos de modelos en un solo proceso de inferencia. Según el artículo, una vía está guiada por la duración, lo que tiende a mejorar la estabilidad del alineamiento y reduce problemas como el salto de palabras. La otra vía es sin alineamiento, lo que tiende a mejorar la fluidez y la naturalidad percibida. PFluxTTS combina ambas a través de la fusión de campos vectoriales durante la inferencia, lo que significa que el sistema mezcla las guías de ambos modelos durante el proceso de generación en lugar de elegir únicamente una familia de modelos.

Esto es relevante porque muchos equipos que desarrollan productos de voz encuentran que un modelo que suena bien en demostraciones cortas puede fallar en situaciones reales, especialmente cuando los prompts son ruidosos, multilingües o conversacionales. En producción, un sistema de voz debe seguir siendo inteligible, conservar la identidad y mantener una temporización estable en contenidos y condiciones de grabación variadas.

¿Cómo mejora PFluxTTS la fiabilidad de la clonación de voz entre idiomas?

La clonación de voz entre idiomas es difícil porque la identidad del hablante no es un solo vector estático. Los rasgos reales del hablante varían en el tiempo, en diferentes contextos fonéticos y en condiciones de grabación diversas. El artículo sostiene que las incrustaciones de hablante de dimensión fija pueden descartar matices de timbre que varían en el tiempo y que son relevantes cuando el idioma del prompt difiere del idioma de destino.

PFluxTTS aborda esto condicionando sobre una secuencia de incrustaciones del prompt de voz dentro de un decodificador basado en FLUX, diseñado para conservar mejor los rasgos del hablante entre idiomas sin requerir transcripciones del prompt.

El resultado es un sistema diseñado para mantener el timbre del hablante, incluso cuando el prompt está en un idioma y la voz generada en otro, e incluso cuando los prompts se han grabado en entornos cotidianos en lugar de en estudio.

¿Qué significa “fusión de modelos durante la inferencia” en palabras sencillas?

La mayoría de los sistemas eligen una familia de modelos y conviven con sus debilidades. PFluxTTS, en cambio, ejecuta un enfoque híbrido en el momento de la generación. El artículo describe la fusión de dos campos vectoriales entrenados de forma independiente durante una única integración ODE, de modo que el sistema puede apoyarse en la vía guiada por duración al principio para estabilizar el alineamiento, y después permitir que la vía sin alineamiento domine las etapas finales para lograr fluidez y naturalidad.

En resumen, el sistema está diseñado para empezar de forma segura y estable, y terminar siendo expresivo y natural, lo que resulta práctico para reducir el típico compromiso de “o bien estabilidad o bien naturalidad” al trabajar con modelos de voz a escala.

¿Cómo aborda PFluxTTS la calidad de audio y la reconstrucción a 48 kHz?

Muchas tuberías de TTS generan espectrogramas mel a una resolución que no captura todo el detalle de las frecuencias altas, y luego dependen de un vocoder para reconstruir el audio. El artículo presenta un vocoder PeriodWave modificado que incorpora un enfoque de superresolución para conseguir la reconstrucción de la forma de onda a 48 kHz a partir de características mel de baja tasa.

Para usuarios y desarrolladores, la reconstrucción en mayor ancho de banda puede traducirse en sonidos sibilantes más claros, transitorios más limpios y una textura de alta frecuencia más realista, especialmente en narraciones profesionales o escuchas prolongadas, donde los artefactos se vuelven más notorios con el tiempo.

¿Qué indica el artículo acerca del rendimiento de PFluxTTS?

El resumen en arXiv reporta que, en datos de habla cruzada en entornos reales, PFluxTTS supera a varios referentes de código abierto nombrados en el resumen y alcanza resultados comparables a los de un referente líder en naturalidad, mejorando métricas de inteligibilidad, y muestra una mayor similitud de voz con el hablante que una referencia comercial importante en las condiciones descritas.

Speechify anima a investigadores, desarrolladores y socios a evaluar el trabajo directamente mediante el preprint público y las demostraciones de audio, diseñadas para hacer audibles y comparables los resultados en condiciones realistas de prompts multilingües.

¿Dónde pueden los lectores encontrar el artículo y las demos para citar o enlazar?

El preprint de PFluxTTS está disponible en arXiv bajo el identificador 2602.04160, y el sitio del proyecto alberga el resumen del artículo y muestras de audio.

¿Por qué es importante esto para el futuro de la IA de voz en Speechify?

La IA de voz está pasando de ser una novedad a formar parte de la infraestructura diaria. Ese cambio eleva el listón. Los sistemas deben seguir siendo estables en sesiones prolongadas, manejar prompts multilingües, preservar la identidad del hablante y ofrecer latencia predecible e inteligibilidad bajo condiciones reales.

El enfoque de investigación de Speechify está alineado con esos requisitos de producción. Trabajos como PFluxTTS reflejan la tendencia de la investigación moderna en voz: arquitecturas híbridas que cierran la brecha entre estabilidad y naturalidad, métodos de clonación de voz más robustos que funcionan entre idiomas y tuberías de extremo a extremo que mejoran la calidad final del audio, no solo características intermedias.

Speechify seguirá invirtiendo en investigación que impulse la IA de voz práctica, publicará resultados en los principales foros y trasladará estos avances a la calidad de producto para los usuarios y a una infraestructura de voz confiable para los desarrolladores que crean experiencias centradas en la voz.

Acerca de Speechify

Speechify es una empresa de IA centrada en la voz que ayuda a las personas a leer, escribir y comprender información mediante la voz. Con la confianza de más de 50 millones de usuarios en todo el mundo, Speechify potencia lectura con IA, escritura con IA, podcasts con IA, toma de notas con IA, reuniones con IA y productividad con IA en todas las plataformas de consumo y empresariales. La investigación propia y los modelos de voz de Speechify permiten voces realistas en más de 60 idiomas y se utilizan a nivel global en una amplia gama de trabajos de conocimiento y casos de accesibilidad.