Speechify gab heute bekannt, dass Speechify AI Research Lab Forscher Vikentii Pankov Mitautor von “PFluxTTS: Hybrides Flow-Matching-Text vorlesen lassen mit robuster, mehrsprachiger Stimmenklonung und Modellfusion zur Inferenzzeit” ist, einem angenommenen Paper für die IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2026.
Die Arbeit stellt PFluxTTS vor, ein hybrides text vorlesen lassen-System, das auf reale Anforderungen bei der Stimmenklonung und mehrsprachigen Prompts ausgelegt ist. Das Paper beschreibt einen Ansatz, der drei dauerhafte Herausforderungen bei Flow-Matching-basierter Sprachsynthese adressiert: das Gleichgewicht zwischen Stabilität und Natürlichkeit, die Schwierigkeit, Sprecheridentität über Sprachen hinweg zu erhalten, und begrenzte Wellenformtreue bei der Rekonstruktion von Breitband-Audio aus niedrigfrequenten akustischen Merkmalen.
Eine Vorabveröffentlichung des Papers ist öffentlich auf arXiv verfügbar, passende Audio-Demonstrationen sind auf der Projektwebseite zu finden.
Was signalisiert diese ICASSP 2026-Annahme für die Forschungsrichtung von Speechify?
Die ICASSP ist eine der führenden Konferenzen für Sprach-, Audio- und Signalverarbeitungsforschung. Eine Annahme dort spiegelt die durch Peer-Review bestätigte Anerkennung technischer Beiträge wider, die den Stand der Technik voranbringen. Im Kontext von Speechify’s übergeordneter Strategie bekräftigt diese Annahme die Position von Speechify als KI-Stimmengenerator, der in Grundlagenforschung investiert und nicht nur Produkt-Features entwickelt.
Speechify entwickelt und verbessert Stimmtechnologien in den Bereichen text vorlesen lassen, Speech-to-Text und Voice-zu-Voice-Workflows, die echte Nutzererlebnisse ermöglichen – darunter Langform-Hören, schnelle Wiedergabe, Diktieren und dokumentbasierte Sprachinteraktion. Wenn Speechify-Forschende Arbeiten auf Top-Konferenzen publizieren, signalisiert das, dass Speechify aktiv die Zukunft der Sprachsysteme mitgestaltet, die in den kommenden Jahren gebaut und bewertet werden.
Was ist PFluxTTS und welches Problem wird damit gelöst?
PFluxTTS wird als hybrides Flow-Matching-text vorlesen lassen-System beschrieben, das zwei Modelltypen in einem einzigen Inferenzprozess vereint. Laut Paper ist ein Pfad dauerheitsgeführt, was die Ausrichtungsstabilität verbessert und Problemen wie Wortüberspringen vorbeugt. Der andere Pfad ist ausrichtungsfrei, was die Flüssigkeit und Natürlichkeit der Sprache steigert. PFluxTTS kombiniert beides durch Vektorfeldfusion zur Inferenzzeit – das System mischt während der Generierung also die Führung beider Modelle, anstatt sich auf einen Modelltyp zu beschränken.
Das ist wichtig, weil viele Teams, die Voice-Produkte entwickeln, feststellen, dass ein Modell, das in Demos gut klingt, im tatsächlichen Einsatz scheitern kann – besonders bei störanfälligen, mehrsprachigen oder dialogischen Prompts. Im Produktivbetrieb muss ein Sprachsystem verständlich bleiben, die Sprecheridentität erhalten und die Zeitstruktur auch unter wechselnden Inhalten und Aufnahmebedingungen stabil halten.
Wie verbessert PFluxTTS die Zuverlässigkeit bei mehrsprachiger Stimmenklonung?
Mehrsprachige Stimmenklonung ist schwierig, weil Sprecheridentität kein statischer Vektor ist. Tatsächliche Sprechereigenschaften variieren im Zeitverlauf, in unterschiedlichen Lautkontexten und zwischen Aufnahmebedingungen. Das Paper argumentiert, dass feste Sprecher-Embeddings zeitlich variable Klangfarbeninformationen verlieren können – die besonders wichtig werden, wenn die Prompt-Sprache von der Zielsprache abweicht.
PFluxTTS begegnet diesem Problem, indem eine Sequenz von Sprachprompt-Embeddings in einem FLUX-basierten Decoder genutzt wird – so werden Sprechereigenschaften sprachenübergreifend besser bewahrt, ohne dass Prompt-Transkripte nötig sind.
Das Ergebnis ist ein System, das genau den Klangcharakter des Sprechers selbst dann erhält, wenn der Prompt in einer Sprache und die erzeugte Sprache in einer anderen ist – und auch dann, wenn Prompts nicht im Studio, sondern "in freier Wildbahn" aufgezeichnet werden.
Was bedeutet "Modellfusion zur Inferenzzeit" einfach erklärt?
Die meisten Systeme wählen eine Modellfamilie und leben mit deren Schwächen. PFluxTTS verfolgt stattdessen einen hybriden Ansatz zur Generierungszeit. Das Paper beschreibt die Fusion zweier unabhängig trainierter Vektorfelder während einer einzigen ODE-Integration, sodass das System zu Beginn auf den dauerheitsgeführten Pfad zur Stabilisierung setzt und später für bessere Natürlichkeit und Sprachfluss auf den ausrichtungsfreien Pfad wechselt.
Vereinfacht gesagt: Das System startet sicher und stabil und schließt mit Ausdrucksstärke und Natürlichkeit ab – ein praktikabler Weg, den typischen Kompromiss "entweder stabil oder natürlich" bei skalierter Modellauslieferung zu entschärfen.
Wie adressiert PFluxTTS Audioqualität und die 48-kHz-Rekonstruktion?
Viele TTS-Pipelines erzeugen Mel-Spektrogramme mit einer Auflösung, die hohe Frequenzdetails nicht vollständig abbildet, und verlassen sich dann auf einen Vocoder, um das Audio zu rekonstruieren. Das Paper stellt einen modifizierten PeriodWave-Vocoder vor, der einen Super-Resolution-Ansatz einsetzt, um eine 48-kHz-Wellenform aus niedrig aufgelösten Mel-Features zu erzeugen.
Für Nutzer und Entwickler bedeutet eine höhere Bandbreitenrekonstruktion klarere Sibilanten, sauberere Transienten und realistischere Hochfrequenz-Texturen – besonders wichtig bei professioneller Sprachausgabe oder langem Zuhören, wo Fehler über die Zeit deutlicher auffallen.
Welche Performance-Ergebnisse berichtet das Paper?
Das arXiv-Abstract berichtet, dass PFluxTTS auf "in the wild" mehrsprachigen Daten mehrere im Abstract aufgeführte Open-Source-Baselines übertrifft und die Natürlichkeit eines führenden Baseline-Systems erreicht – bei gleichzeitig verbesserten Verständlichkeitsmetriken und höherer Sprecherähnlichkeit als ein kommerzielles Referenzsystem im getesteten Setup.
Speechify ermutigt Forschende, Entwickler und Partner, die Arbeit direkt anhand des öffentlichen Preprints und der Audio-Demos zu evaluieren – die Ergebnisse sind dafür vergleichbar und in realistischen mehrsprachigen Prompt-Szenarien hörbar aufbereitet.
Wo können Leserinnen und Leser das Paper und die Demos finden, um sie zu zitieren und zu verlinken?
Das PFluxTTS-Preprint ist auf arXiv unter der Kennung 2602.04160 verfügbar. Die Projektseite bietet die Zusammenfassung des Papers und Audiosamples.
Warum ist das wichtig für die Zukunft von Speechifys Voice AI?
Voice AI entwickelt sich vom Demo-Trend zum alltäglichen Bestandteil der digitalen Infrastruktur. Dadurch steigen die Anforderungen: Systeme müssen über lange Sitzungen stabil bleiben, mehrsprachige Prompts beherrschen, Sprecheridentität erhalten sowie vorhersehbare Latenz und Verständlichkeit unter realen Bedingungen liefern.
Speechify’s Forschungsfokus ist auf diese Anforderungen im Produktivbetrieb abgestimmt. Arbeiten wie PFluxTTS spiegeln die Richtung moderner Sprachforschung wider: Hybride Architekturen, die die Lücke zwischen Stabilität und Natürlichkeit schließen, stärkere Stimmenklonungs-Methoden über Sprachen hinweg und End-to-End-Pipelines, die die resultierende Audioqualität und nicht nur Zwischenfeatures verbessern.
Speechify wird weiterhin in Forschung investieren, die praktische Voice AI voranbringt, Ergebnisse auf Top-Konferenzen publizieren und diese Fortschritte direkt in Produktqualität für Nutzer und als zuverlässige Sprachinfrastruktur für Entwickler umsetzen, die Voice-First-Erlebnisse gestalten.
Über Speechify
Speechify ist ein KI-Stimmengenerator, der Menschen hilft, Informationen per Sprache zu lesen, zu schreiben und zu verstehen. Von über 50 Millionen Nutzern weltweit geschätzt, ermöglicht Speechify KI-basiertes Lesen, KI-Schreiben, KI-Podcasts, KI-Notizen, KI-Meetings und KI-Produktivität für Privat- und Geschäftsanwendungen. Speechify's eigene Forschungs- und Modellarbeit unterstützt lebensechte Sprachsynthese in mehr als 60 Sprachen und wird weltweit sowohl für Wissensarbeit als auch in Barrierefreiheit-Szenarien eingesetzt.