Speechify AI Research Labi teadlase PFluxTTS-i artikkel võeti vastu ICASSP 2026-le

Speechify teatas täna, et Speechify AI Research Labi teadlane Vikentii Pankov on üks autoritest artiklil “PFluxTTS: Hübriidne Flow Matching TTS tugeva kõnekloonimise ja mudelite ühendamisega jooksvalt,” mis võeti vastu IEEE rahvusvahelisele konverentsile ICASSP 2026.

Töös tutvustatakse PFluxTTS-i, hübriidset tekst kõneks süsteemi, mis parandab kõnekloonimise ja mitmekeelsete käskude töökindlust. Artikkel kirjeldab lähenemist, mis lahendab kolm püsivat väljakutset: stabiilsuse ja loomulikkuse tasakaal, kõneleja säilitamine eri keeltes ning takistused algses sageduses heli taastamisel väiksematest akustilistest andmetest.

Artikli eeltrükk on avalikult saadaval arXivis ning helidemod projektilehel.

Mida tähendab ICASSP 2026 vastuvõtt Speechify teadussuunale?

ICASSP on üks juhtivaid konverentse kõne- ja signaalitöötluses ning vastuvõtt näitab selle tehnilise panuse teaduspõhist tunnustamist. Speechify laiem strateegia toetab seda suunda, rõhutades Speechify kui häälepõhise AI ettevõtte positsiooni, mis investeerib alusteadusesse, mitte ainult tootearendusse.

Speechify arendab ja täiustab kõnetehnoloogiaid nagu tekst kõneks, kõne tekstiks ja kõnest kõneks protsessid, mis toetavad päris kasutajakogemusi, nagu pikk kuulamine, kiire taasesitus, dikteerimine ja dokumendipõhine kõnesuhtlus. Kui Speechify teadlased publitseerivad töid, mis võetakse vastu juhtivatel konverentsidel, kinnitab see, et Speechify panustab uurimistöösse, mis kujundab, kuidas tulevikus häälesüsteeme ehitatakse ja hinnatakse.

Mis on PFluxTTS ja millist probleemi see lahendab?

PFluxTTS on kirjeldatud hübriidse flow matching tekst kõneks süsteemina, kus kaks mudelit töötavad paralleelselt. Üks haru on kestusepõhine, mis tõstab häälejoone stabiilsust ja takistab sõnade vahelejätmist. Teine haru on joondusvaba, tagades voolavuse ja loomulikkuse. PFluxTTS ühendab mõlemad jooksvalt juhistena generatsiooniajal, mitte ei vali ainult üht mudeliperet.

See on oluline, sest kõnepõhiste toodete arendajad näevad sageli, et mudel, mis töötab demos hästi, võib pärisolukordades alt vedada, eriti kui sisend on mürane, mitmekeelne või vestluslik. Tootmiskeskkonnas peab hääl olema arusaadav, säilitama identiteedi ja ajastuse ka erinevates tingimustes.

Kuidas parandab PFluxTTS eri keeltes häälekloonimise töökindlust?

Mitmekeelse häälekloonimise puhul ongi keeruline, et kõneleja identiteet pole üks kindel väärtus. Tegelikud kõneomadused muutuvad ajas, häälikukontekstis ja salvestustingimuste järgi. Artikkel väidab, et fikseeritud kõneleja vektorid jätavad ajas muutuvad tunnused välja, mis saavad eriti tähtsaks, kui sisendi keel erineb sihtkeelest.

PFluxTTS lahendab selle, andes FLUX-põhises dekoodris mudelile järjest kõne-embeddingsid, mis aitavad kõneleja omadusi eri keeltes säilitada ka ilma tekstilise sisendi transkriptita.

Tulemuseks on süsteem, mis hoiab alles kõneleja iseloomu ka siis, kui sisend on ühes ja väljund teises keeles, ning ka juhul, kui salvestused on tehtud välitingimustes, mitte stuudios.

Mida tähendab "mudeli kokkuliitmine infereerimisel" lihtsas keeles?

Enamik süsteeme kasutab üht mudeliperet ja lepib miinustega. PFluxTTS rakendab hübriidset lähenemist juba generatsiooniajal. Artikkel kirjeldab kahe eraldi treenitud vektorvälja ühendamist ODE integratsiooni käigus – alguses kasutatakse kestusepõhist haru joondamiseks, hiljem joondusvaba haru loomulikkuse jaoks.

Lihtsustatult: süsteem alustab turvaliselt ja stabiilselt, lõpetab loomuliku kõlaga, vähendades "kas stabiilne või loomulik" tüüpi kompromissi, millega tiimid sageli silmitsi seisavad.

Kuidas lahendab PFluxTTS heli kvaliteedi ja 48 kHz taastamise?

Paljud TTS torud toodavad mel-spektrifunktsioone, mis esindavad kõrgsageduslikke detaile puudulikult, ning kasutavad vocoderit helitaastamisel. Artikkel esitleb muudetud PeriodWave vocoderit, mis lisab ülessageduslahutuse 48 kHz helilaine taastamiseks väikeste andmete põhjal.

Kasutajatele ja arendajatele tähendab suurem sagedusriba selgemat sibilanti, puhtamaid üleminekuid ja realistlikumat kõrgsageduslikku tekstuuri, eriti pikemal kuulamisel või profisalvestustes, kus vead muutuvad ajas märgatavaks.

Millised tulemuslikkuse numbrid on artiklis välja toodud?

arXivi kokkuvõte toob välja, et mitmekeelsel vabas looduskeskkonnas kogutud andmetel ületab PFluxTTS mitmeid avatud lähtekoodiga võrdlusmudeleid ning saavutab loomulikkuses sarnased tulemused juhtiva võrdlusmudeliga, parandades selgust ja pakkudes suuremat kõneleja sarnasust võrreldes kommertstarkvaraga.

Speechify soovitab teadlastel, arendajatel ja partneritel tööd ise hinnata avalikult kättesaadava eeltrüki ja helidemode kaudu, mis teevad tulemused kuuldavaks ja võrreldavaks päris mitmekeelses katses.

Kust leiab artikli ja demod viitamiseks?

PFluxTTS eeltrükk on arXivis ID 2602.04160 all ning projektilehel on kokkuvõte ja audionäited.

Miks on see oluline Speechify Voice AI tulevikule?

Kõne-AI liigub näidistest igapäevase taristu tasemele, mis tõstab nõudmisi: süsteemid peavad püsima stabiilsed pikkadel sessioonidel, toetama mitmekeelset sisendit, säilitama kõneleja ning pakkuma ennustatavat latentsust ja selgust päris olukordades.

Speechify-i teadussuund ongi suunatud neile praktilistele vajadustele. PFluxTTS-i arendus järgib nüüdisaegset teadusloogikat: hübriid-architektuurid, mis tasakaalustavad stabiilsuse ja loomulikkuse, tugevamad häälekloonimise meetodid keelteüleselt ning torud, mis parandavad lõppheli, mitte ainult vaheandeid.

Speechify jätkab praktilise kõne-AI uurimist, avaldab tulemusi tippkonverentsidel ja toob need kasutajateni ning arendajateni kvaliteetse toote ja usaldusväärse taristuna.

Speechifyst

Speechify on häälepõhine AI ettevõte, mis aitab inimestel teksti kuulata, kirjutada ja mõista. Rohkem kui 50 miljonit kasutajat usaldab Speechify platvormi: AI-lugemine, AI-kirjutamine, AI-podcastid, AI-märkmed, AI-koosolekud ning AI tulemuslikkus nii eraisikutele kui ettevõtetele. Speechify enda kõneuuringud ja mudelid võimaldavad elutruud kõnet 60+ keeles ning neid kasutatakse üle maailma teadmistepõhises töös ja ligipääsetavuse lahendustes.