Raziskovalcu iz Speechify AI Research Laba so sprejeli članek PFluxTTS na ICASSP 2026

Speechify je danes objavil, da je raziskovalec iz Speechify AI Research Laba, Vikentii Pankov, soavtor članka "PFluxTTS: hibridni flow matching TTS z robustnim večjezičnim kloniranjem glasu in fuzijo modela v času inferenciranja", ki je bil sprejet na IEEE Mednarodni konferenci za akustiko, govor in obdelavo signalov (ICASSP) 2026.

Delo predstavlja PFluxTTS, hibridni text to speech sistem, zasnovan za izboljšanje pripravljenosti za produkcijo pri kloniranju glasu in večjezičnem narekovanju. Članek opisuje pristop, ki cilja na tri pogoste težave pri flow matching generiranju govora: ravnovesje med stabilnostjo in naravnostjo, izzive ohranjanja identitete govorca v različnih jezikih in omejeno zvestobo valovne oblike pri rekonstrukciji zvoka iz akustičnih značilnosti z nižjo frekvenco.

Predobjava članka je javno dostopna na arXiv, zvočni primeri pa so na voljo na projektni spletni strani.

Kaj pomeni sprejem na ICASSP 2026 za raziskovalno usmeritev Speechify?

ICASSP je ena vodilnih konferenc za raziskave govora, zvoka in signalov. Sprejem pomeni strokovno priznanje tehničnih prispevkov, ki premikajo meje. V okviru širše Speechify-jeve strategije ta uspeh potrjuje Speechify-jevo pozicijo kot podjetja, osredotočenega na glasovno umetno inteligenco, ki vlaga v temeljne raziskave in ne le v produkte.

Speechify razvija in izpopolnjuje glasovne tehnologije na področju text to speech, speech to text in govor-v-govor procesov, ki omogočajo resnične uporabniške izkušnje: poslušanje daljših vsebin, hitro predvajanje, diktiranje in interakcije z dokumenti. Ko Speechify-jevi raziskovalci objavijo članke, ki so sprejeti na pomembnih konferencah, to potrjuje, da Speechify aktivno soustvarja prihodnost glasovnih sistemov.

Kaj je PFluxTTS in kaj rešuje?

PFluxTTS je hibridni flow matching text to speech sistem, ki združuje dva tipa modelov v enem procesu inferenciranja. Ena pot je vodena z dolžino, kar prinaša bolj stabilno poravnavo in manj izpuščanja besed, druga pa je brez poravnave, kar izboljšuje tekočnost in naravnost. PFluxTTS združuje oba modela prek fuzije vektorjev v času generacije, namesto da bi izbral le en tip modela.

To je pomembno, ker številne ekipe ugotovijo, da modeli, ki v kratkih demo posnetkih zvenijo odlično, v realni rabi odpovejo – še posebej pri hrupnih, večjezičnih ali pogovornih pozivih. V produkciji mora sistem ostati razumljiv, ohraniti glasovno identiteto in stabilen čas tudi pri raznovrstnih vsebinah ter posnetih v različnih pogojih.

Kako PFluxTTS izboljšuje zanesljivost večjezičnega kloniranja glasu?

Večjezično kloniranje glasu je zahtevno, ker identiteta govorca ni ena stalna vrednost. Govorčeve značilnosti se spreminjajo glede na kontekst in pogoje snemanja. Članek trdi, da običajne enodimenzionalne vdelave govorca izgubijo pomembne časovno spremenljive odtenke barve glasu, posebej kadar se jezik poziva razlikuje od jezika rezultata.

PFluxTTS to naslavlja z vključevanjem zaporedja vdelkov govornega poziva v na FLUX osnovani dekoder, ki je zasnovan za boljše ohranjanje govorcevih značilnosti med jeziki, brez potrebe po transkripciji poziva.

Rezultat je sistem, ki ohranja, kako zveni govorec, tudi če je poziv v enem jeziku, generiran govor pa v drugem – in tudi pri naravnih (nestudijskih) pozivih.

Kaj pomeni "fuzija modela v času inferenciranja" preprosto povedano?

Večina sistemov uporablja eno družino modelov z vsemi njenimi pomanjkljivostmi. PFluxTTS pa uporablja hibridni pristop ob generiranju. Članek opisuje združevanje dveh ločeno naučenih vektorskih polj v enem ODE integriranju, kar omogoča, da sistem uporabi dolžinsko vodeno pot za stabilnost na začetku, nato pa prevzame pot brez poravnave za naravnost.

Preprosto: sistem začne varno in stabilno, nato zaključi bolj naravno in izrazno – s tem zmanjša običajni kompromis med stabilnostjo in naravnostjo v velikih glasovnih modelih.

Kako PFluxTTS obravnava kakovost zvoka in rekonstrukcijo 48 kHz?

Mnoge TTS rešitve ustvarijo značilnosti mel-spektrograma s prenizko ločljivostjo, zato se visokofrekvenčne podrobnosti izgubijo, nato pa za rekonstrukcijo uporabijo vokoder. Članek predstavi izboljšan PeriodWave vokoder s pristopom superresolucije za ustvarjanje 48 kHz zvoka iz nizkofrekvenčnih mel značilnosti.

Za uporabnike in razvijalce višja pasovna širina pomeni jasnejše sičnike, manj artefaktov in bolj naraven zvok, predvsem pri profesionalnih naracijah ali dolgotrajnem poslušanju.

Kakšne rezultate poroča članek?

Povzetek na arXiv navaja, da PFluxTTS na večjezičnih realnih podatkih presega več odprtokodnih primerjav (poimensko navedenih) in dosega enako naravnost kot vodilna rešitev, obenem pa izboljša razumljivost in ohrani več podobnosti z glasom kot glavni komercialni primerjalnik.

Speechify spodbuja raziskovalce, razvijalce in partnerje, naj delo ocenijo sami prek javne predobjave in demo posnetkov, ki omogočajo slišljivo primerjavo v realnih večjezičnih scenarijih.

Kje lahko bralci najdejo članek in demote za citiranje in povezavo?

Predobjava PFluxTTS je dostopna na arXiv pod oznako 2602.04160, projektna stran pa vsebuje povzetek članka in zvočne primere.

Zakaj je to pomembno za prihodnost Speechify Voice AI?

Glasovna umetna inteligenca postaja del vsakdanje infrastrukture, ne več le zbirka demo posnetkov. To viša standarde – sistemi morajo ostati stabilni v dolgih sejah, obvladovati večjezične pozive, ohranjati glasovno identiteto in predvidljivo razumljivost v realnih pogojih.

Speechify-jev raziskovalni fokus je usklajen s temi zahtevami. Delo, kot je PFluxTTS, odraža smer sodobnih govornih raziskav: hibridne arhitekture, ki zbližujejo stabilnost in naravnost, močnejše metode kloniranja glasu čez jezike in celostne rešitve, ki izboljšujejo končno kakovost zvoka, ne le vmesnih značilnosti.

Speechify bo še naprej vlagal v raziskave za napredne praktične govorne rešitve, objavljal v vodilnih revijah ter prenašal napredek v kakovost izdelkov za uporabnike in v zanesljivo glasovno infrastrukturo za razvijalce.

O podjetju Speechify

Speechify je podjetje, osredotočeno na glasovno umetno inteligenco, ki ljudem pomaga brati, pisati in razumeti informacije z govorom. Zaupa mu že več kot 50 milijonov uporabnikov po vsem svetu. Speechify omogoča AI branje, AI pisanje, AI podkaste, AI zapiske, AI sestanke in AI produktivnost na različnih platformah. Speechify podpira naraven govor v več kot 60 jezikih, zasluga pa gre lastnim raziskavam in modelom. Uporablja se po vsem svetu pri učenju, delu in za dostopnost.