Speechify ilmoitti tänään, että Speechify AI Research Labin tutkija Vikentii Pankov on "PFluxTTS: Hybrid Flow Matching TTS with Robust Cross Lingual Voice Cloning and Inference Time Model Fusion" -artikkelin kirjoittaja, ja että artikkeli on hyväksytty IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2026 -konferenssiin.
Tutkimus esittelee PFluxTTS-järjestelmän, joka on hybridimallinen tekstistä puheeksi -ratkaisu, suunniteltu parantamaan tuotantokyvykkyyttä äänen kloonauksessa ja monikielisessä ohjauksessa. Artikkelissa kuvataan lähestymistapaa, joka ratkoo kolme pitkään jatkunutta haastetta flow matching -pohjaisessa puheentuotannossa: vakauden ja luonnollisuuden välinen kompromissi, puhujan identiteetin säilyttämisen vaikeus eri kielillä sekä rajoittunut aaltomuodon uskottavuus, kun täyden kaistanleveyden ääntä rekonstruoidaan matalamman tason akustisista piirteistä.
Artikkelin preprint-versio on julkisesti saatavilla arXiv:ssä, ja äänidemot löytyvät projektin verkkosivulta.
Mitä tämä ICASSP 2026 -hyväksyntä kertoo Speechifyn tutkimuksen suunnasta?
ICASSP on yksi alan johtavista konferensseista puhe-, ääni- ja signaalinkäsittelyn tutkimuksessa, ja hyväksyntä tarkoittaa vertaisarvioitua tunnustusta teknisille edistysaskeleille. Speechifyn laajemmassa strategiassa tämä hyväksyntä vahvistaa Speechifyn asemaa ääneen perustuvana tekoälyyrityksenä, joka panostaa perustutkimukseen – ei ainoastaan tuoteominaisuuksiin.
Speechify kehittää ja parantaa äänenkäsittelyteknologioita, kuten tekstistä puheeksi-, puheesta tekstiksi- sekä puheesta puheeseen -työnkulkuja, jotka mahdollistavat todelliset käyttäjäkokemukset, esimerkiksi pitkän kuuntelun, nopean toiston, sanelun ja dokumenttipohjaisen vuorovaikutuksen äänen avulla. Kun Speechifyn tutkijat julkaisevat tutkimusta, joka hyväksytään merkittäviin konferensseihin, se osoittaa, että Speechify on mukana tutkimuksen eturintamassa, joka määrittelee, miten äänenkäsittelyjärjestelmiä kehitetään ja arvioidaan tulevina vuosina.
Mikä on PFluxTTS ja mitä ongelmaa se ratkaisee?
PFluxTTS kuvataan hybridimalliksi flow matching -tekstistä puheeksi -järjestelmäksi, joka yhdistää kaksi malliperhettä yhdeksi päättelyprosessiksi. Artikkelin mukaan yksi polku on kestoon ohjautuva, mikä parantaa kohdistuksen vakautta ja vähentää esimerkiksi sanojen ohittamista. Toinen polku on kohdistusvapaa, mikä parantaa sujuvuutta ja koettua luonnollisuutta. PFluxTTS yhdistää nämä päättelyaikaisella vektorikenttien fuusiolla: järjestelmä yhdistelee molempien mallien ohjausta puheen muodostuksen aikana sen sijaan, että valitsisi vain yhden malliperheen.
Tämä on tärkeää, koska monet tiimit, jotka kehittävät ääniominaisuuksia käyttäviä tuotteita, huomaavat, että malli, joka kuulostaa hyvältä lyhyissä demoissa, voi epäonnistua todellisissa käyttötapauksissa – erityisesti kun ohjeet ovat meluisia, monikielisiä tai keskustelunomaisia. Tuotantoympäristössä äänijärjestelmän on pysyttävä ymmärrettävänä, säilytettävä puhujan identiteetti ja taattava ajoituksen vakaus vaihtelevissa sisällöissä ja tallennusolosuhteissa.
Miten PFluxTTS parantaa kielirajat ylittävän äänen kloonauksen luotettavuutta?
Kielirajat ylittävä äänen kloonaus on haastavaa, sillä puhujan identiteetti ei ole yksittäinen pysyvä vektori. Todelliset puhujan piirteet vaihtelevat ajan myötä, eri foneettisissa yhteyksissä ja eri tallennusolosuhteissa. Artikkelin mukaan kiinteäulotteiset puhujavektorit voivat sivuuttaa ajassa vaihtelevat äänensävyn vihjeet, jotka ovat tärkeitä silloin, kun ohjeistuksen kieli eroaa kohdekielestä.
PFluxTTS ratkaisee tämän hyödyntämällä puheohjeistuksen vektorijonoja FLUX-pohjaisessa dekooderissa, joka on suunniteltu paremmin säilyttämään puhujan piirteet kielirajojen yli ilman, että ohjetekstien transkriptioita vaaditaan.
Lopputuloksena on järjestelmä, joka pystyy säilyttämään sen, miltä puhuja kuulostaa, vaikka ohjeistus olisi yhdellä kielellä ja generoitu puhe toisella – myös silloin, kun ohjeet on äänitetty vaihtelevissa, ei-studio-olosuhteissa.
Mitä "päättelyaikaisella mallien fuusiolla" tarkoitetaan selkokielellä?
Useimmat järjestelmät valitsevat yhden malliperheen ja hyväksyvät sen heikkoudet. PFluxTTS sen sijaan käyttää hybridilähestymistapaa itse tuoton aikana. Artikkeli kuvaa, kuinka kaksi itsenäisesti koulutettua vektorikenttää yhdistetään yksittäisen ODE-integraation aikana, jolloin järjestelmä voi nojata kestoon ohjautuvaan polkuun varhaisessa vaiheessa kohdistuksen vakauttamiseksi ja myöhemmin antaa kohdistusvapaan polun määrittää sujuvuuden ja luonnollisuuden.
Yksinkertaistettuna: järjestelmä on suunniteltu aloittamaan turvallisesti ja vakaasti ja päättämään ilmeikkäästi ja luonnollisesti. Tämä vähentää käytännössä sitä kompromissia, jossa täytyy valita vakauden ja luonnollisuuden välillä – haaste, joka on vaikeuttanut ääntä hyödyntävien mallien laajamittaista käyttöönottoa.
Miten PFluxTTS huomioi äänenlaadun ja 48 kHz:n rekonstruoinnin?
Monet TTS-putket generoivat mel-spektrogrammeja resoluutiolla, joka ei täysin tavoita korkeataajuisia yksityiskohtia, ja käyttävät sitten vokaattoria äänen rekonstruointiin. Artikkeli esittelee muokatun PeriodWave-vokaattorin, joka hyödyntää superresoluutiota tuottaakseen 48 kHz:n aaltomuodon matalatason mel-piirteistä.
Käyttäjille ja kehittäjille laajemman taajuuskaistan rekonstruointi voi tarkoittaa kirkkaampia sibilantteja, puhtaampia transientteja ja realistisempaa korkeataajuista tekstuuria – etenkin ammattimaisessa kertojapuheessa tai pitkäkestoisessa kuuntelussa, jossa mahdolliset artefaktit korostuvat ajan myötä.
Mitä suorituskykylukuja artikkelissa raportoidaan?
arXivin abstraktin mukaan PFluxTTS päihittää useat avoimen lähdekoodin vertailumallit villeillä monikielisillä aineistoilla ja saavuttaa johtavan vertailumallin tasoisen tuloksen luonnollisuudessa, samalla kun se parantaa ymmärrettävyyttä mittarina. Lisäksi järjestelmä raportoi suurempaa puhujan samankaltaisuutta kuin suuri kaupallinen vertailumalli esitetyssä asetelmassa.
Speechify kannustaa tutkijoita, kehittäjiä ja yhteistyökumppaneita arvioimaan työtä suoraan julkisesta preprintistä ja äänidemoista, jotka mahdollistavat tulosten kuulemisen ja vertailun realistisissa monikielisissä ohjaustilanteissa.
Missä lukijat voivat löytää artikkelin ja demot viittauksia sekä linkitystä varten?
PFluxTTS-preprint on saatavilla arXiv:ssa tunnisteella 2602.04160, ja projektisivustolla on tiivistelmä sekä ääninäytteet.
Miksi tällä on merkitystä Speechifyn Voice AI:n tulevaisuuden kannalta?
Ääni-tekoäly siirtyy kokeellisista demoista osaksi arjen infrastruktuuria. Tämä muutos nostaa vaatimustasoa: järjestelmien on pysyttävä vakaina pitkissä jaksoissa, käsiteltävä monikielisiä ohjeita, säilytettävä puhujan identiteetti sekä tuotettava ennakoitavaa viivettä ja ymmärrettävyyttä todellisissa olosuhteissa.
Speechifyn tutkimusfokus on linjassa tuotannollisten vaatimusten kanssa. PFluxTTS-työn kaltaiset ratkaisut kuvastavat modernin puhetutkimuksen suuntaa: hybridimallit, jotka kaventavat vakauden ja luonnollisuuden välistä kuilua, paremmat monikieliset äänen kloonausmenetelmät sekä end-to-end-ratkaisut, jotka parantavat lopullista äänenlaatua – eivät pelkästään välivaiheen piirteitä.
Speechify jatkaa investointeja käytännönläheistä ääni-tekoälyä edistävään tutkimukseen, julkaisee tuloksia alan huippufoorumeilla ja siirtää nämä edistysaskeleet tuotteiden laatuun käyttäjille sekä vakaaseen äänialustaan kehittäjille, jotka rakentavat ääneen perustuvia kokemuksia.
Tietoa Speechifysta
Speechify on ääneen perustuva tekoälyyritys, joka auttaa ihmisiä lukemaan, kirjoittamaan ja ymmärtämään tietoa äänen avulla. Yli 50 miljoonaa käyttäjää ympäri maailmaa luottaa Speechifyyn, joka mahdollistaa AI-lukemisen, AI-kirjoittamisen, AI-podcastit, AI-muistiinpanot, AI-kokoukset ja AI-tuottavuuden tuottavuuden sekä kuluttaja- että yritysalustoilla. Speechifyn omat puhetutkimus- ja mallityöt mahdollistavat luonnollisen kaltaisen puheen yli 60 kielellä, ja niitä hyödynnetään laajasti erilaisten tietotyön ja esteettömyyden tarpeiden tukena maailmanlaajuisesti.