Speechify a annoncé aujourd'hui que le chercheur Vikentii Pankov du Speechify AI Research Lab est l’un des auteurs de « PFluxTTS : Hybrid Flow Matching TTS with Robust Cross Lingual Voice Cloning and Inference Time Model Fusion », un article accepté à l'IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2026.
Ce travail présente PFluxTTS, un système hybride de synthèse vocale conçu pour améliorer l’usage en production pour le clonage de voix et la génération multilingue. L’article décrit une approche visant trois lacunes persistantes dans la génération vocale basée sur l’appariement de flux : le compromis entre stabilité et naturel, la difficulté à préserver l’identité vocale d’un locuteur entre différentes langues, et la fidélité limitée de la forme d’onde lors de la reconstruction d’un son large bande à partir de caractéristiques acoustiques à basse résolution.
Une prépublication de l’article est disponible publiquement sur arXiv et des démonstrations audio sont proposées sur le site du projet.
Que signifie cette acceptation à l’ICASSP 2026 pour l’orientation de la recherche de Speechify ?
ICASSP est l’une des principales conférences mondiales en recherche sur la parole, l’audio et le traitement du signal, et une acceptation reflète une reconnaissance par les pairs de contributions techniques faisant progresser l’état de l’art. Dans le cadre de la stratégie plus large de Speechify, cette acceptation renforce la position de Speechify en tant qu’entreprise d’IA axée sur la voix qui investit dans la recherche fondamentale, et pas seulement dans des fonctionnalités produits.
Speechify développe et améliore les technologies vocales dans les flux texte vers parole, parole vers texte et parole à parole qui alimentent l’expérience utilisateur réelle, incluant l’écoute longue durée, la lecture accélérée, la dictée et l’interaction vocale sur documents. Lorsque les chercheurs de Speechify publient des travaux acceptés dans des conférences majeures, cela confirme que Speechify contribue à la recherche de pointe qui façonnera la manière dont les systèmes vocaux seront conçus et évalués dans les prochaines années.
Qu’est-ce que PFluxTTS et quel problème cela résout-il ?
PFluxTTS est décrit comme un système hybride d'appariement de flux pour la synthèse vocale qui combine deux styles de modèles dans un même processus d’inférence. Selon l’article, une voie est guidée par la durée, ce qui tend à améliorer la stabilité de l’alignement et à réduire des problèmes tels que l’omission de mots. L’autre voie est sans alignement, ce qui améliore la fluidité et le naturel perçu. PFluxTTS exploite les deux via une fusion de champs vectoriels au moment de l’inférence, c’est-à-dire que le système combine les guides des deux modèles pendant la génération au lieu de s’en tenir à une seule famille de modèles.
C’est important car de nombreuses équipes travaillant sur des produits vocaux constatent qu’un modèle qui semble performant dans de courtes démonstrations peut encore échouer dans des flux réels, surtout lorsque les invites sont bruitées, multilingues ou conversationnelles. En production, un système vocal doit rester intelligible, préserver l’identité du locuteur et maintenir une stabilité de timing quel que soit le contenu et les conditions d’enregistrement.
Comment PFluxTTS renforce-t-il la fiabilité du clonage vocal interlingue ?
Le clonage vocal interlingue est difficile car l’identité du locuteur n’est pas un unique vecteur statique. Les caractéristiques vocales réelles d’une personne varient au fil du temps, selon le contexte phonétique et les conditions d’enregistrement. L’article soutient que les embeddings de locuteur à dimension fixe peuvent négliger des indices de timbre variant dans le temps qui deviennent cruciaux lorsque la langue de l’invite diffère de celle de destination.
PFluxTTS répond à ce problème en conditionnant sur une séquence d’embeddings d’invites vocales dans un décodeur basé sur FLUX, conçu pour mieux préserver les caractéristiques du locuteur à travers différentes langues sans nécessiter de transcription de l’invite.
Le résultat est un système pensé pour conserver l’identité sonore du locuteur, même lorsque l’invite est dans une langue et la parole générée dans une autre, et même lorsque les invites sont capturées dans la vie réelle plutôt qu’en studio.
Qu’est-ce que la « fusion de modèles au moment de l’inférence » veut dire simplement ?
La plupart des systèmes choisissent une famille de modèles et acceptent ses faiblesses. PFluxTTS adopte au contraire une approche hybride au moment de la génération. L’article décrit la fusion de deux champs vectoriels entraînés indépendamment au cours d’une seule intégration d’EDO, ce qui permet au système de privilégier la voie guidée par la durée au début pour stabiliser l’alignement, puis de laisser la voie sans alignement prendre le dessus dans les étapes suivantes pour la fluidité et le naturel.
Pour faire simple, le système commence de façon sûre et stable, puis termine de façon expressive et naturelle, ce qui fournit une solution concrète pour atténuer le compromis « soit stable, soit naturel » auquel les équipes sont souvent confrontées lors du déploiement de modèles vocaux à grande échelle.
Comment PFluxTTS aborde-t-il la qualité audio et la reconstruction à 48 kHz ?
De nombreux pipelines TTS génèrent des spectrogrammes mel à une résolution qui ne capture pas tout le détail des hautes fréquences, puis s’appuient sur un vocodeur pour reconstruire l’audio. L’article présente une version modifiée du vocodeur PeriodWave qui intègre une approche de super-résolution afin de produire une reconstruction de forme d’onde en 48 kHz à partir de caractéristiques mel à faible taux.
Pour les utilisateurs et développeurs, une reconstruction à large bande peut donner des sifflantes plus claires, des transitoires plus propres et une texture haute fréquence plus réaliste, notamment pour la narration professionnelle ou l’écoute longue durée, où les artefacts peuvent devenir plus perceptibles avec le temps.
Quelles performances l’article revendique-t-il ?
Le résumé sur arXiv indique que, sur des données interlingues collectées dans la vie réelle, PFluxTTS surpasse plusieurs références open source citées dans le résumé et atteint des résultats équivalents à une référence leader en naturel, tout en améliorant les métriques d’intelligibilité et en présentant une similarité vocale supérieure à une grande référence commerciale dans le protocole décrit.
Speechify invite les chercheurs, développeurs et partenaires à évaluer directement le travail à travers la prépublication publique et les démonstrations audio, conçues pour rendre les résultats audibles et comparables dans des conditions d’invite réalistes en contexte interlingue.
Où trouver l’article et les démonstrations pour citer et partager ?
La prépublication PFluxTTS est disponible sur arXiv sous l’identifiant 2602.04160, et le site du projet propose un résumé de l’article et des exemples audio.
Pourquoi est-ce important pour l’avenir de l’IA vocale de Speechify ?
L’IA vocale passe du statut de simple démonstration à celui d’infrastructure quotidienne. Ce changement élève les exigences. Les systèmes doivent rester stables sur des sessions longues, gérer les invites multilingues, préserver l’identité du locuteur et assurer une latence et une intelligibilité prévisibles dans des conditions réelles.
Speechify centre ses recherches sur ces exigences de production. Un travail comme PFluxTTS reflète l’évolution de la recherche vocale moderne : architectures hybrides comblant l’écart entre stabilité et naturel, méthodes de clonage vocal renforcées fonctionnant entre langues, et pipelines de bout en bout qui améliorent la qualité audio finale, pas uniquement les caractéristiques intermédiaires.
Speechify continuera d’investir dans la recherche faisant progresser l’IA vocale pratique, publiera ses résultats dans les meilleurs forums et transformera ces avancées en qualité produit pour ses utilisateurs et en infrastructure vocale fiable pour les développeurs créant des expériences centrées sur la voix.
À propos de Speechify
Speechify est une entreprise d’IA orientée voix qui aide les personnes à lire, écrire et comprendre l’information par la parole. Plébiscité par plus de 50 millions d’utilisateurs dans le monde, Speechify propulse la lecture IA, l’écriture IA, les podcasts IA, la prise de notes IA, les réunions IA et la productivité IA sur des plateformes grand public et professionnelles. Speechify s’appuie sur sa recherche propriétaire sur la voix et ses modèles pour offrir une parole naturelle dans plus de 60 langues, utilisée mondialement dans de nombreux usages professionnels et en matière d’accessibilité.