Badacz z Speechify AI Research Lab z pracą PFluxTTS przyjętą na ICASSP 2026

Speechify ogłosiło dziś, że badacz z Speechify AI Research Lab, Vikentii Pankov, jest autorem pracy „PFluxTTS: Hybrydowe dopasowywanie przepływu TTS z niezawodnym klonowaniem głosu międzyjęzykowego i fuzją modeli podczas inferencji”, która została przyjęta na IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2026.

Praca przedstawia PFluxTTS, hybrydowy system tekst-na-mowę zaprojektowany, by podnieść gotowość produkcyjną w obszarze klonowania głosu i wielojęzycznych promptów. Artykuł opisuje podejście, które mierzy się z trzema trwałymi wyzwaniami w generowaniu mowy opartym na flow matchingu: kompromisem między stabilnością a naturalnością, trudnością w zachowaniu tożsamości mówcy pomiędzy językami oraz ograniczoną wiernością fali akustycznej przy odtwarzaniu dźwięku z cech o niższej częstotliwości.

Wersja preprint artykułu jest publicznie dostępna na arXiv, a towarzyszące jej dema audio można znaleźć na stronie projektu.

Co oznacza przyjęcie na ICASSP 2026 dla kierunku badań Speechify?

ICASSP to jedna z wiodących konferencji poświęconych badaniom nad mową, dźwiękiem i przetwarzaniem sygnałów, a przyjęcie pracy świadczy o uznaniu i recenzji wkładu technicznego, który przesuwa granice aktualnego stanu wiedzy. W kontekście szerszej strategii Speechify ta akceptacja umacnia pozycję Speechify jako firmy AI skoncentrowanej na głosie, która inwestuje w badania podstawowe, a nie tylko w rozwój funkcji produktowych.

Speechify rozwija i ulepsza technologie głosowe w obszarach takich jak tekst-na-mowę, mowa-na-tekst oraz przepływy mowa-na-mowę, które zasilają realne doświadczenia użytkowników, w tym długotrwałe słuchanie, szybkie odtwarzanie, dyktowanie i interakcje głosowe oparte na dokumentach. Gdy badacze z Speechify publikują prace przyjęte na prestiżowych konferencjach, pokazuje to, że Speechify aktywnie uczestniczy w badaniach, które będą kształtować przyszłość systemów głosowych przez najbliższe lata.

Czym jest PFluxTTS i jaki problem rozwiązuje?

PFluxTTS jest opisany jako hybrydowy system dopasowywania przepływu tekst-na-mowę, który łączy dwa style modeli w jednym procesie inferencji. Według artykułu jedna ścieżka bazuje na prowadzeniu przez czas trwania, co poprawia stabilność wyrównania i ogranicza błędy, takie jak pomijanie słów. Druga ścieżka jest wolna od wyrównania, dzięki czemu poprawia płynność i naturalność mowy. PFluxTTS łączy obie ścieżki poprzez fuzję pól wektorowych na etapie inferencji, co oznacza, że system miesza wskazania obu modeli podczas generowania zamiast polegać wyłącznie na jednej rodzinie modeli.

Jest to istotne, ponieważ wiele zespołów tworzących produkty głosowe doświadcza sytuacji, w której model, który brzmi świetnie w krótkim demo, nie sprawdza się w realnych zastosowaniach – szczególnie przy szumie, promptach międzyjęzykowych czy konwersacyjnych. W produkcji system głosowy musi pozostać zrozumiały, zachować tożsamość oraz utrzymać stabilność czasową przy zróżnicowanych treściach i warunkach nagraniowych.

Jak PFluxTTS poprawia niezawodność klonowania głosu międzyjęzykowego?

Klonowanie głosu między językami jest trudne, ponieważ tożsamość mówcy nie jest pojedynczym statycznym wektorem. Rzeczywiste cechy głosu mówcy zmieniają się w czasie, w różnych kontekstach fonetycznych i warunkach nagraniowych. Artykuł wskazuje, że osadzenia mówców o stałym wymiarze mogą pomijać niuanse barwy, istotne zwłaszcza wtedy, gdy język promptu różni się od docelowego języka wypowiedzi.

PFluxTTS radzi sobie z tym, warunkując na sekwencji osadzeń z promptu mowy w dekoderze opartym na FLUX, zaprojektowanym do lepszego zachowania cech mówcy między językami, bez potrzeby transkrypcji promptu.

W efekcie powstaje system zaprojektowany tak, by zachować charakter mówcy — nawet gdy prompt jest w jednym języku, a wygenerowana mowa w innym, oraz nawet gdy prompty są nagrywane w terenie, a nie w studiu.

Co oznacza „fuzja modeli podczas inferencji” w prostych słowach?

Większość systemów wybiera jedną rodzinę modeli i godzi się na jej słabości. PFluxTTS stosuje podejście hybrydowe podczas generowania. Artykuł opisuje łączenie dwóch niezależnie wytrenowanych pól wektorowych przy pojedynczej integracji ODE, dzięki czemu system początkowo korzysta ze ścieżki prowadzonej przez czas trwania w celu stabilizacji wyrównania, a następnie pozwala ścieżce bez wyrównania dominować w późniejszych krokach dla większej płynności i naturalności.

Mówiąc prościej, system został zaprojektowany tak, by zaczynać bezpiecznie i stabilnie, a kończyć ekspresyjnie i naturalnie — to praktyczny sposób na ograniczenie typowego kompromisu „albo stabilnie, albo naturalnie”, z którym często mierzą się zespoły wdrażające modele głosowe na dużą skalę.

Jak PFluxTTS rozwiązuje kwestie jakości dźwięku i rekonstrukcji 48 kHz?

Wiele systemów TTS generuje cechy melspektrogramu w rozdzielczości, która nie oddaje wszystkich szczegółów wysokich częstotliwości, a następnie polega na wokoderze przy rekonstrukcji dźwięku. Artykuł przedstawia zmodyfikowany wokoder PeriodWave, który wykorzystuje podejście typu super resolution do rekonstrukcji fali dźwiękowej w 48 kHz na podstawie cech mel o niższej częstotliwości.

Dla użytkowników i deweloperów rekonstrukcja o wyższej szerokości pasma oznacza lepszą klarowność sybilantów, czystsze transienty i bardziej realistyczną teksturę wysokich częstotliwości — szczególnie w profesjonalnym lektorstwie lub długim słuchaniu, gdzie artefakty z czasem stają się coraz bardziej zauważalne.

Jakie wyniki wydajności raportuje artykuł?

Abstrakt arXiv podaje, że na danych cross-lingual „in the wild” PFluxTTS przewyższa kilka open source’owych rozwiązań bazowych wymienionych w abstrakcie, osiągając wyniki równe wiodącemu baseline’owi w zakresie naturalności przy poprawie metryk zrozumiałości oraz wykazuje większe podobieństwo głosu mówcy niż główna komercyjna referencja w opisywanym środowisku.

Speechify zachęca badaczy, deweloperów i partnerów do samodzielnej oceny pracy za pomocą publicznego preprintu oraz demonstracji audio, zaprojektowanych tak, by umożliwić odsłuch i porównanie wyników w realistycznych warunkach promptów międzyjęzykowych.

Gdzie czytelnicy mogą znaleźć artykuł i dema do cytowania i linkowania?

Preprint PFluxTTS jest dostępny na arXiv pod identyfikatorem 2602.04160, a na stronie projektu można znaleźć podsumowanie artykułu i przykłady audio.

Dlaczego to ważne dla przyszłości Voice AI w Speechify?

Voice AI przechodzi od nowości i prototypów do codziennej infrastruktury. Ten skok podnosi poprzeczkę: systemy muszą być stabilne podczas długich sesji, obsługiwać wielojęzyczne prompty, zachować tożsamość głosu oraz zapewniać przewidywalne opóźnienia i zrozumiałość w realnych warunkach.

Speechify koncentruje badania wokół tych wymagań produkcyjnych. Prace takie jak PFluxTTS pokazują kierunek współczesnych badań nad mową: hybrydowe architektury niwelujące przepaść między stabilnością a naturalnością, mocniejsze metody klonowania głosu działające ponad językami oraz end-to-end pipelines, które poprawiają końcową jakość dźwięku, a nie tylko cechy pośrednie.

Speechify nadal będzie inwestować w badania praktycznego Voice AI, publikować wyniki na czołowych konferencjach oraz przekładać te postępy na jakość produktu dla użytkowników i stabilną infrastrukturę głosową dla deweloperów tworzących doświadczenia voice first.

O Speechify

Speechify to firma AI koncentrująca się na głosie, która pomaga ludziom czytać, pisać i rozumieć informacje z wykorzystaniem mowy. Zaufana przez ponad 50 milionów użytkowników na całym świecie, Speechify zapewnia AI reading, AI writing, AI podcasty, AI notatki, AI spotkania i AI produktywność na platformach konsumenckich i biznesowych. Własne badania oraz modele głosu Speechify pozwalają na generowanie naturalnej mowy w ponad 60 językach i są wykorzystywane globalnie w wielu obszarach pracy wiedzy i dostępności.