Výskumník zo Speechify AI Research Lab má článok PFluxTTS prijatý na ICASSP 2026

Speechify dnes oznámil, že výskumník z Speechify AI Research Lab, Vikentii Pankov, je spoluautorom článku „PFluxTTS: Hybridné flow matching TTS s robustným viacjazyčným klonovaním hlasu a fúziou modelov v čase inferencie,“ ktorý bol prijatý na IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2026.

Práca predstavuje PFluxTTS, hybridný text na reč systém navrhnutý na zlepšenie pripravenosti na produkciu pre klonovanie hlasu a viacjazyčné scenáre. Článok popisuje prístup zameraný na tri pretrvávajúce problémy v generovaní reči na báze flow matching: kompromis medzi stabilitou a prirodzenosťou, ťažkosti so zachovaním identity rečníka naprieč jazykmi a obmedzenú vernosť vlny pri rekonštrukcii plného audio pásma z nízkofrekvenčných akustických prvkov.

Preprint článku je verejne dostupný na arXiv a zvukové ukážky sú na webovej stránke projektu.

Čo znamená prijatie na ICASSP 2026 pre smerovanie výskumu Speechify?

ICASSP je popredná konferencia pre výskum reči, zvuku a spracovania signálu. Prijatie znamená recenzované uznanie odborného prínosu a posúvanie úrovne výskumu. V kontexte širokej stratégie Speechify toto prijatie posilňuje pozíciu Speechify ako AI spoločnosti zameranej na hlas, ktorá investuje do základného výskumu, nielen do produktových funkcií.

Speechify vyvíja a zlepšuje hlasové technológie v oblasti textu na reč, reči na text a „speech to speech“ workflow, ktoré umožňujú reálne používateľské zážitky, vrátane dlhého počúvania, rýchleho prehrávania, diktovania a hlasovej interakcie nad dokumentmi. Keď výskumníci zo Speechify publikujú prijaté práce na významných konferenciách, ukazuje to, že Speechify je súčasťou výskumu, ktorý určuje budúcu podobu a hodnotenie hlasových systémov.

Čo je PFluxTTS a aký problém rieši?

PFluxTTS je popísané ako hybridný flow matching text na reč systém, ktorý kombinuje dva štýly modelov v jednom inferenčnom procese. Podľa článku jedna cesta je riadená dĺžkou, čo zlepšuje stabilitu zarovnania a znižuje chyby ako vynechávanie slov. Druhá je bez zarovnania, čo zvyšuje plynulosť a prirodzenosť prejavu. PFluxTTS ich spája cez fúziu vektorových polí počas generovania, teda kombinuje vedenie oboch modelov a nie je nutné voliť len jednu rodinu modelov.

Je to dôležité, lebo tímy budujúce hlasové produkty často zistia, že model, ktorý znie výborne v deme, môže zlyhávať v praxi, najmä ak sú výzvy hlučné, viacjazyčné alebo konverzačné. V produkcii musí hlasový systém zostať zrozumiteľný, udržať identitu a časovanie naprieč rôznym obsahom a nahrávacími podmienkami.

Ako PFluxTTS zvyšuje spoľahlivosť viacjazyčného klonovania hlasu?

Viacjazyčné klonovanie hlasu je náročné, keďže identita rečníka nie je statický vektor. Skutočné črty sa menia v čase, podľa fonetického kontextu či nahrávacích podmienok. Článok tvrdí, že fixné vektorové reprezentácie rečníka strácajú premenlivé tóny, ktoré sú kľúčové pri jazykovom rozdiele medzi výzvou a cieľovou rečou.

PFluxTTS to rieši kondicionovaním na sekvenciu embeddingov rečovej výzvy vo FLUX dekóderi, čím lepšie zachováva črty rečníka medzi jazykmi bez potreby prepisov výzvy.

Výsledkom je systém navrhnutý tak, aby uchoval identitu rečníka, aj keď je výzva v jednom jazyku a generovaná reč v druhom, a tiež keď sú výzvy nahrané v reálnom prostredí mimo štúdia.

Čo znamená “fúzia modelov v čase inferencie”?

Väčšina systémov si zvolí jeden typ modelu a pracuje s jeho slabinami. PFluxTTS používa hybridný prístup priamo pri generovaní. Článok opisuje fúziu dvoch nezávisle trénovaných vektorových polí v jednej ODE integrácii, kde spočiatku dominuje cesta riadená dĺžkou pre stabilitu, neskôr prevládne voľné zarovnanie pre prirodzenosť a plynulosť.

Jednoducho povedané, systém je navrhnutý na bezpečný, stabilný začiatok a prirodzený, výrazný koniec, čím v praxi zmierňuje nutnosť kompromisu medzi stabilitou a prirodzenosťou pri nasadzovaní hlasových modelov vo veľkom meradle.

Ako PFluxTTS rieši kvalitu zvuku a rekonštrukciu 48 kHz?

Mnohé TTS pipeline generujú mel spektrogramy v rozlíšení, ktoré nezachytáva vysoké frekvencie, a následne používajú vokóder na rekonštrukciu audia. Článok predstavuje vylepšený PeriodWave vokóder s metódou super-rezolučnej rekonštrukcie 48 kHz vlny z nízkofrekvenčných mel prvkov.

Pre používateľov a vývojárov znamená vyššie pásmo jasnejšie sykavky, čistejšie prechodové javy a realistickú vysokofrekvenčnú textúru, najmä pri profesionálnych nahrávkach alebo dlhšom počúvaní, kde sú artefakty citeľnejšie.

Aké výkonnostné výsledky článok uvádza?

Podľa arXiv abstraktu, na viacjazyčných dátach z terénu PFluxTTS prekonáva viacero open source baseline uvedených v abstrakte, dosahuje prirodzenosť porovnateľnú s vedúcim baseline, zlepšuje metriky zrozumiteľnosti a vykazuje vyššiu podobnosť rečníka než významný komerčný referenčný systém.

Speechify vyzýva výskumníkov, vývojárov a partnerov, aby výsledky hodnotili priamo cez verejný preprint a ukážkové audio, ktoré umožňujú počuť a porovnať výsledky v realistických podmienkach viacjazyčných výziev.

Kde nájdu čitatelia článok a demo na citovanie a odkaz?

Preprint PFluxTTS je dostupný na arXiv pod číslom 2602.04160 a stránka projektu obsahuje zhrnutie a ukážky audia.

Prečo je to dôležité pre budúcnosť Speechify Voice AI?

Hlasová AI sa posúva od demo ukážok k súčasti každodennej infraštruktúry. To zvyšuje nároky: musí byť stabilná aj pri dlhšom použití, zvládať viacjazyčné výzvy, zachovať identitu rečníka aj predvídateľnú zrozumiteľnosť a latenciu v reálnych podmienkach.

Speechify sa vo výskume zameriava presne na tieto produkčné požiadavky. Práca ako PFluxTTS ukazuje smer modernej rečovej vedy: hybridné architektúry, ktoré zmierňujú kompromis medzi stabilitou a prirodzenosťou, lepšie metódy klonovania hlasu naprieč jazykmi a end-to-end pipeline zlepšujúce konečnú kvalitu zvuku, nielen medzivýsledky.

Speechify bude naďalej investovať do výskumu praktickej hlasovej AI, publikovať výsledky v top konferenciách a pretavovať ich do produktovej kvality a spoľahlivej infraštruktúry pre vývojárov hlasových aplikácií.

O Speechify

Speechify je AI spoločnosť orientovaná na hlas, ktorá pomáha ľuďom čítať, písať a porozumieť informáciám cez reč. Viac než 50 miliónov používateľov Speechify dôveruje AI čítaniu, AI písaniu, AI podcastom, AI poznámkam, AI stretnutiam a AI produktivite v spotrebiteľských aj firemných prostrediach. Speechify vyvíja vlastné rečové modely podporujúce realistickú reč vo viac ako 60 jazykoch, využívané globálne na znalostnú prácu aj prístupnosť.