Il ricercatore del Laboratorio di Ricerca AI di Speechify pubblica il paper PFluxTTS all'ICASSP 2026

Speechify ha annunciato oggi che il ricercatore del Laboratorio di Ricerca AI di Speechify, Vikentii Pankov, è autore di “PFluxTTS: Hybrid Flow Matching TTS con clonazione vocale robusta cross-lingua e fusione di modelli in fase di inferenza”, un paper accettato alla IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2026.

Il lavoro introduce PFluxTTS, un sistema ibrido di text to speech progettato per migliorare la prontezza alla produzione nella clonazione della voce e nei prompt multilingue. Il paper descrive un approccio che affronta tre lacune persistenti nella generazione vocale basata su flow matching: il compromesso tra stabilità e naturalezza, la difficoltà nel preservare l'identità del parlante tra diverse lingue e la limitata fedeltà della forma d’onda nella ricostruzione dell’audio a banda completa da caratteristiche acustiche a bassa frequenza.

Una versione preprint del paper è pubblicamente disponibile su arXiv, e le dimostrazioni audio sono accessibili sul sito web del progetto.

Cosa indica questa accettazione all'ICASSP 2026 sulla direzione della ricerca di Speechify?

ICASSP è una delle principali conferenze per la ricerca su voce, audio e processamento del segnale, e l'accettazione riflette un riconoscimento, tramite revisione paritaria, dei contributi tecnici che fanno progredire lo stato dell'arte. Nel contesto della più ampia strategia di Speechify, questa accettazione rafforza la posizione di Speechify come azienda AI voice-first che investe nella ricerca di base, non solo nello sviluppo di funzionalità di prodotto.

Speechify sviluppa e perfeziona tecnologie vocali che spaziano dal text to speech, allo speech to text, fino ai flussi voce-voce che alimentano esperienze utente reali, tra cui l’ascolto di lunga durata, la riproduzione ad alta velocità, la dettatura e l'interazione vocale basata su documenti. Quando i ricercatori di Speechify pubblicano lavori accettati in conferenze di rilievo, ciò contribuisce a chiarire che Speechify è presente in prima linea nella ricerca che influenzerà lo sviluppo e la valutazione dei sistemi vocali negli anni a venire.

Cos'è PFluxTTS e quale problema risolve?

PFluxTTS viene descritto come un sistema ibrido di flow matching per text to speech che combina due tipi di modelli in un unico processo di inferenza. Secondo il paper, un percorso è guidato dalla durata, il che tende a migliorare la stabilità dell’allineamento e ridurre problemi come salti di parola. L’altro percorso è senza allineamento, con il risultato di una maggiore fluidità e naturalezza percepita. PFluxTTS combina entrambi tramite fusione del campo vettoriale in fase di inferenza, ossia il sistema miscela le due guide di modello durante il processo generativo invece di scegliere una sola famiglia di modelli.

Questo è importante perché molti team che sviluppano prodotti vocali scoprono che un modello che suona bene in demo brevi può comunque fallire in workflow reali, soprattutto quando i prompt sono rumorosi, cross-lingua o conversazionali. In produzione, un sistema vocale deve rimanere comprensibile, preservare l’identità e mantenere la stabilità temporale su diversi tipi di contenuto e condizioni di registrazione.

Come migliora PFluxTTS l’affidabilità della clonazione vocale cross-lingua?

La clonazione vocale cross-lingua è complessa perché l’identità di un parlante non è un unico vettore statico. Le caratteristiche vocali reali variano nel tempo, tra contesti fonetici e condizioni di registrazione. Il paper sostiene che embedding vocali a dimensione fissa possono tralasciare segnali di timbro che variano nel tempo e che diventano invece cruciali quando la lingua del prompt differisce dalla lingua target.

PFluxTTS affronta questa sfida condizionando su una sequenza di embedding vocali del prompt all’interno di un decoder basato su FLUX, progettato per preservare meglio le caratteristiche del parlante tra lingue diverse, senza richiedere la trascrizione del prompt.

Il risultato è un sistema pensato per mantenere intatta l'identità vocale anche quando il prompt è in una lingua e la voce generata in un’altra, e anche quando i prompt sono catturati “in the wild”, anziché in studio.

Cosa significa “fusione di modelli in tempo di inferenza”, in parole semplici?

La maggior parte dei sistemi sceglie una sola famiglia di modelli e ne accetta i limiti. PFluxTTS invece adotta un approccio ibrido in fase di generazione. Il paper descrive la fusione di due campi vettoriali allenati indipendentemente durante una sola integrazione ODE, cosicché il sistema può affidarsi al percorso guidato dalla durata all’inizio per stabilizzare l’allineamento, per poi lasciare che il percorso senza allineamento domini la parte finale per una resa più fluida e naturale.

In parole semplici, il sistema è progettato per iniziare in modo sicuro e stabile, e poi concludere risultando espressivo e naturale, offrendo un modo pratico per ridurre il classico compromesso “o stabile o naturale” che i team spesso devono affrontare nel distribuire modelli vocali su larga scala.

Come affronta PFluxTTS la qualità audio e la ricostruzione a 48 kHz?

Molte pipeline di TTS generano caratteristiche di mel-spettrogramma a una risoluzione che non rappresenta a pieno i dettagli ad alta frequenza, affidandosi successivamente a un vocoder per ricostruire l’audio. Il paper introduce un vocoder PeriodWave modificato che integra un approccio di super risoluzione per produrre forme d’onda a 48 kHz a partire da mel features a bassa frequenza.

Per utenti e sviluppatori, la ricostruzione a banda più ampia può tradursi in sibilanti più nitide, transitori più puliti e una parte alta dello spettro più realistica, particolarmente importante per narratori professionali o ascolti prolungati, dove gli artefatti diventano più percepibili col passare del tempo.

Quali indicazioni sulle prestazioni riporta il paper?

L’abstract su arXiv riporta che, su dati cross-lingua “in the wild”, PFluxTTS supera diversi baseline open source citati nell’abstract e raggiunge risultati comparabili a un baseline leader per naturalezza, migliorando le metriche di intelligibilità, e mostra una maggiore somiglianza con il parlante rispetto a un importante riferimento commerciale nel setup presentato.

Speechify invita ricercatori, sviluppatori e partner a valutare direttamente il lavoro tramite il preprint pubblico e le demo audio, pensate per rendere i risultati udibili e confrontabili in condizioni realistiche di prompting cross-lingua.

Dove possono i lettori trovare il paper e le demo da citare o condividere?

Il preprint di PFluxTTS è disponibile su arXiv con identificativo 2602.04160, e il sito del progetto ospita il riepilogo del paper e i campioni audio.

Perché è importante per il futuro della Voice AI di Speechify?

La Voice AI sta passando da demo curiose a infrastruttura quotidiana. Questo cambiamento alza l’asticella della qualità richiesta. I sistemi devono rimanere stabili per sessioni lunghe, gestire prompt multilingue, preservare l’identità del parlante e garantire latenza e intelligibilità prevedibili in condizioni reali.

Speechify orienta la propria ricerca verso questi requisiti produttivi. Lavori come PFluxTTS riflettono l'evoluzione della ricerca moderna sul parlato: architetture ibride che riducono il divario tra stabilità e naturalezza, metodi più efficaci di clonazione vocale cross-lingua e pipeline end-to-end che migliorano la qualità audio finale, non solo le caratteristiche intermedie.

Speechify continuerà a investire nella ricerca che fa avanzare la Voice AI pratica, pubblicando i propri risultati in sedi di eccellenza e traducendo questi progressi in qualità di prodotto per gli utenti e in infrastruttura affidabile per chi sviluppa esperienze voice-first.

Informazioni su Speechify

Speechify è un'azienda AI voice-first che aiuta le persone a leggere, scrivere e comprendere informazioni grazie alla voce. Scelta da oltre 50 milioni di utenti nel mondo, Speechify alimenta lettura AI, scrittura AI, podcast AI, presa di appunti con AI, meeting AI e produttività AI su piattaforme consumer e enterprise. La ricerca proprietaria sulle voci e i modelli di Speechify supporta voci realistiche in oltre 60 lingue, ed è utilizzata in tutto il mondo in casi d’uso che spaziano dal lavoro della conoscenza all’accessibilità.