Istraživač Speechify AI-ja ima rad PFluxTTS prihvaćen na ICASSP 2026

Speechify je danas objavio da je istraživač iz Speechify AI Research Laba, Vikentii Pankov, autor rada “PFluxTTS: Hibridni flow matching TTS s robusnim višejezičnim kloniranjem glasa i spajanjem modela tijekom inferencije”, prihvaćenog za IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2026.

Rad uvodi PFluxTTS, hibridni text to speech sustav osmišljen za bolju produkcijsku spremnost kod kloniranja glasa i višejezičnih upita. Rad opisuje pristup koji rješava tri uporna izazova kod flow matching generacije govora: odnos stabilnosti i prirodnosti, teškoće u očuvanju identiteta govornika kroz jezike i ograničenu vjernost signala pri rekonstrukciji zvuka punog opsega iz nižih akustičkih značajki.

Preprint rada javno je dostupan na arXiv-u, a audio demonstracije nalaze se na web stranici projekta.

Što prihvaćanje na ICASSP 2026 znači za smjer Speechifyevih istraživanja?

ICASSP je jedna od najvažnijih konferencija za istraživanje govora, zvuka i obrade signala, a prihvaćanje rada potvrđuje tehnički napredak kroz stručnu recenziju. U kontekstu Speechify šire strategije, ovo priznanje dodatno učvršćuje Speechify-ev status AI tvrtke orijentirane na glas, koja ulaže u temeljna istraživanja, a ne samo u razvoj funkcionalnosti proizvoda.

Speechify razvija i usavršava glasovne tehnologije kroz text to speech, speech to text i govor-u-govor procese za stvarna korisnička iskustva, uključujući dugotrajno slušanje, brzo preslušavanje, dikciju i glasovne interakcije s dokumentima. Kada Speechifyevi istraživači objave prihvaćeni rad na važnoj konferenciji, to pokazuje da Speechify sudjeluje u oblikovanju budućnosti glasovnih sustava i načina njihove evaluacije u idućim godinama.

Što je PFluxTTS i koji problem rješava?

PFluxTTS je opisan kao hibridni flow matching text to speech sustav koji u jednoj inferenciji kombinira dva modela. Prema radu, jedan put vodi trajanje, što poboljšava stabilnost i smanjuje preskakanje riječi, dok drugi put ne koristi poravnanja, što povećava tečnost i prirodnost. PFluxTTS spaja oba kroz kombiniranje vektorskih polja tijekom inferencije, odnosno sustav koristi oba modela tijekom generiranja umjesto da bira samo jedan.

To je važno jer mnogi timovi otkrivaju da modeli koji zvuče odlično u kratkim demoima često zakažu u stvarnim uvjetima, osobito s bučnim ili višejezičnim upitima. U produkciji sustav mora biti razumljiv, čuvati identitet govornika i imati stabilan timing neovisno o sadržaju ili uvjetima snimanja.

Kako PFluxTTS povećava pouzdanost višejezičnog kloniranja glasa?

Višejezično kloniranje glasa je teško jer identitet govornika nije statičan vektor. Stvarne karakteristike govornika mijenjaju se kroz vrijeme, različite zvučne kontekste i uvjete snimanja. Rad tvrdi da fiksne vektorske reprezentacije mogu izgubiti dinamične karakteristike bitne kad je jezik upita različit od ciljnog.

PFluxTTS to rješava uvjetovanjem na sekvencu ugrađenih značajki govornog upita unutar FLUX dekodera, što bolje čuva osobine govornika kroz jezike bez potrebe za transkriptom.

Rezultat je sustav koji zadržava na koga zvučni rezultat podsjeća, čak i kad je upit na jednom jeziku, a govor generiran na drugom, pa i kada su upiti niske kvalitete iz realnih uvjeta.

Što znači “inferencijsko spajanje modela” običnim jezikom?

Većina sustava koristi samo jednu vrstu modela i živi s njihovim ograničenjima. PFluxTTS umjesto toga koristi hibrid tijekom generiranja. Rad opisuje fuziju dvaju neovisno treniranih vektorskih polja kroz jednu ODE integraciju, pa sustav koristeći vodič za trajanje rano stabilizira generiranje, a zatim prepušta da dominira dio bez poravnanja za izražajnost i prirodnost.

Pojednostavljeno, sustav je zamišljen da počne sigurno i stabilno, a završi prirodno i izražajno, čime ublažava čestu dilemu između stabilnosti i prirodnosti pri širokoj primjeni glasovnih modela.

Kako PFluxTTS poboljšava kvalitetu zvuka i obnovu na 48 kHz?

Mnogi TTS sustavi generiraju mel spektrogram na razini koja ne sadrži visoke frekvencije, pa koriste vokoder za obnovu zvuka. Rad uvodi modificirani PeriodWave vokoder koji koristi super-rezoluciju za obnovu audio vala na 48 kHz iz niskih mel značajki.

Za korisnike i programere, rekonstrukcija šireg pojasa zvuka donosi jasniji zvuk, čišće prijelaze i realističniju teksturu visokih frekvencija, posebno kod profesionalnog pripovijedanja ili duljeg slušanja.

Koje performanse navodi rad?

Sažetak na arXiv-u navodi da je PFluxTTS na višejezičnim realnim podacima bolji od više otvorenih sustava navedenih u radu, s rezultatima koji dostižu vrhunski baseline po prirodnosti i poboljšavaju razumljivost, te donosi veću sličnost govornika od velike komercijalne reference.

Speechify poziva istraživače, programere i partnere da sami procijene rad kroz javni preprint i audio demo, kako bi čuli i usporedili rezultate u stvarnim višejezičnim uvjetima.

Gdje pronaći rad i demo materijale za citiranje i povezivanje?

Preprint rada PFluxTTS dostupan je na arXiv-u pod oznakom 2602.04160, a projektna stranica sadrži sažetak i audio primjere.

Zašto je ovo važno za budućnost Speechify Voice AI-a?

Voice AI prelazi iz demo faze u dio svakodnevne infrastrukture. Taj prijelaz podiže ljestvicu. Sustavi moraju biti stabilni kroz duge sesije, obrađivati višejezične upite, čuvati identitet govornika i omogućiti predvidivo kašnjenje i razumljivost u stvarnim uvjetima.

Speechify-ov istraživački fokus prati te produkcijske zahtjeve. Radovi poput PFluxTTS pokazuju smjer modernih istraživanja govora: hibridne arhitekture koje spajaju stabilnost i prirodnost, snažnije metode kloniranja glasa koje rade kroz jezike i end-to-end tokove koji poboljšavaju krajnju kvalitetu zvuka, a ne samo međurezultate.

Speechify nastavlja ulagati u istraživanja za praktičan voice AI, objavljivati rezultate na vodećim mjestima i pretakati ih u kvalitetu proizvoda za korisnike te stabilnu infrastrukturu developerima za izgradnju glasovnih iskustava.

O Speechifyu

Speechify je AI tvrtka orijentirana na glas koja pomaže ljudima da čitaju, pišu i razumiju informacije putem govora. Vjeruje mu više od 50 milijuna korisnika diljem svijeta, Speechify omogućuje AI čitanje, AI pisanje, AI podcastove, AI bilješke, AI sastanke i AI produktivnost na svim platformama. Speechify-ov vlasnički istraživački rad i modeli omogućuju uvjerljiv govor na više od 60 jezika, a koristi se diljem svijeta i u području znanja i za pristupačnost.