Speechify AI Research Lab-forskare antagen med PFluxTTS-artikel på ICASSP 2026

Speechify meddelade idag att Speechify AI Research Lab-forskaren Vikentii Pankov är medförfattare till “PFluxTTS: Hybrid Flow Matching TTS med robust tvärspråklig röstkloning och modellfusion vid inferenstid,” en artikel som har accepterats till IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2026.

Arbetet introducerar PFluxTTS, ett hybrid-text-till-tal-system utformat för att förbättra produktionsberedskapen för röstkloning och flerspråkig prompting. Artikeln beskriver en metod som angriper tre återkommande begränsningar i flow matching-baserad talgenerering: avvägningen mellan stabilitet och naturlighet, svårigheten att bevara talaridentitet över språkgränser och begränsad vågformsfidelity när fullbandigt ljud ska återskapas från lågresolutionsfunktioner.

En preprint av artikeln är offentligt tillgänglig på arXiv, och tillhörande ljuddemonstrationer finns på projektets webbplats.

Vad signalerar denna ICASSP 2026-acceptans om Speechifys forskningsinriktning?

ICASSP är en av de ledande konferenserna för tal-, ljud- och signalbehandlingsforskning, och acceptans innebär kollegialt granskad erkännande av tekniska framsteg som driver forskningsfronten framåt. I kontexten av Speechifys bredare strategi stärker detta Speechifys position som ett AI-företag med rösten i fokus, som satsar på grundforskning, inte bara nya produktfunktioner.

Speechify bygger och förbättrar röstteknologier för text-till-tal, tal-till-text och tal-till-tal-arbetsflöden som ger verkliga användarupplevelser, inklusive långlyssning, snabb uppspelning, diktering och dokumentbaserad röstinteraktion. När Speechifys forskare publicerar arbete som accepteras till stora konferenser tydliggör det att Speechify är aktivt på forskningsfronten där framtidens röstsystem formas och utvärderas.

Vad är PFluxTTS och vilket problem löser det?

PFluxTTS beskrivs som ett hybrid flow matching-text-till-tal-system som kombinerar två olika modelltyper i en och samma inferensprocess. Enligt artikeln är den ena vägen durationsstyrd, vilket brukar förbättra inriktningsstabilitet och minska problem som ord som hoppas över. Den andra vägen är anpassad utan inriktning och tenderar att förbättra flyt och upplevd naturlighet. PFluxTTS kombinerar båda via vektor-fusionsfält vid inferenstid, vilket betyder att systemet blandar de två modellernas vägledning under själva generationsprocessen istället för att bara förlita sig på en.

Detta är viktigt eftersom många team som bygger röstprodukter upptäcker att en modell som låter bra i korta demos ändå kan fallera i verkliga arbetsflöden, särskilt när prompts är brusiga, tvärspråkliga eller konversativa. I produktion måste ett röstsystem förbli begripligt, bevara identiteten och hålla tajmingen stabil över olika innehåll och inspelningsförhållanden.

Hur förbättrar PFluxTTS tillförlitligheten vid tvärspråklig röstkloning?

Tvärspråklig röstkloning är svårt eftersom talaridentitet inte är en enda statisk vektor. Riktiga talare har egenskaper som varierar över tid, över fonetiska sammanhang och mellan olika inspelningsförutsättningar. I artikeln argumenteras för att fasta talarinkodningar med förbestämd dimension kan förbises röstnyanser som förändras över tid, något som blir viktigt när prompt-språket skiljer sig från målspråket.

PFluxTTS hanterar detta genom att villkora på en sekvens av talpromptembeddings inom en FLUX-baserad avkodare, som är konstruerad för att bättre bevara talarspecifika drag mellan språk, utan att det behövs transcript av prompten.

Resultatet är ett system utformat för att behålla hur talaren låter, även när prompten är på ett språk och det genererade talet på ett annat, och även när prompts är inspelade i vardagliga miljöer istället för i studioförhållanden.

Vad betyder “modellfusion vid inferenstid” på enkel svenska?

De flesta system väljer en modellfamilj och får leva med dess svagheter. PFluxTTS kör istället en hybridmetod vid generering. Artikeln beskriver hur två oberoende tränade vektorfält sammanfogas under en och samma ODE-integration, så att systemet kan luta sig mot den durationsstyrda vägen tidigt för att stabilisera inriktningen, för att sedan låta den inriktningsfria vägen ta över i senare steg för flyt och naturlighet.

Förenklat är systemet designat för att inleda säkert och stabilt och sedan avsluta uttrycksfullt och naturligt. Det är ett praktiskt sätt att minska kompromissen mellan "antingen stabilt eller naturligt" som team ofta stöter på vid storskalig distribution av röstmodeller.

Hur adresserar PFluxTTS ljudkvalitet och 48 kHz-rekonstruktion?

Många TTS-pipelines genererar melspektrogramfunktioner med upplösning som inte fullt ut fångar högfrekventa detaljer, och förlitar sig sedan på en vocoder för att återskapa ljudet. Artikeln introducerar en modifierad PeriodWave-vocoder som använder en superupplösningsmetod för att producera 48 kHz vågformsrekonstruktion från lågresolutions-melfunktioner.

För användare och utvecklare kan högre bandbredd vid rekonstruktion innebära tydligare s-ljud, renare transienter och mer realistisk högfrekvensstruktur, särskilt vid professionell inläsning eller längre lyssning där artefakter blir mer märkbara över tid.

Vilka prestandapåståenden rapporterar artikeln?

Sammanfattningen på arXiv rapporterar att PFluxTTS överträffar flera öppna källkodsbaslinjer som nämns i sammanfattningen och når resultat i paritet med en ledande baslinje när det gäller naturlighet, samtidigt som den förbättrar begriplighetsmått och rapporterar högre likhet med talaren jämfört med en stor kommersiell referens i testuppsättningen.

Speechify uppmuntrar forskare, utvecklare och samarbetspartners att själva utvärdera arbetet via preprinten och ljuddemos, som är utformade för att göra resultaten hörbara och jämförbara i realistiska tvärspråkliga promptförhållanden.

Var kan läsare hitta artikeln och demo för att citera och länka?

PFluxTTS-preprinten finns på arXiv med identifierare 2602.04160, och på projektsidan finns sammanfattning och ljudexempel.

Varför är detta viktigt för Speechifys Voice AI-framtid?

Voice AI går från att vara en nyhetsdemo till att bli vardagsinfrastruktur. Det höjer ribban. Systemen måste förbli stabila under långa sessioner, hantera flerspråkiga prompts, bevara talaridentitet och leverera förutsägbar fördröjning och tydlighet under verkliga förhållanden.

Speechifys forskningsfokus ligger i linje med dessa produktionskrav. Arbeten som PFluxTTS speglar dagens talsforskning: hybridarkitekturer som överbryggar gapet mellan stabilitet och naturlighet, starkare röstkloning över språk, samt helhetslösningar för bättre slutgiltig ljudkvalitet, inte bara bättre mellanliggande funktioner.

Speechify kommer fortsätta att investera i forskning som driver praktisk voice AI framåt, publicera resultat på toppkonferenser och omsätta dessa framsteg till produktkvalitet för användare och till tillförlitlig röstinfrastruktur för utvecklare som bygger voice-first-upplevelser.

Om Speechify

Speechify är ett AI-företag med rösten i fokus som hjälper människor att läsa, skriva och ta till sig information med hjälp av tal. Med över 50 miljoner användare världen över driver Speechify AI-läsning, AI-skrivning, AI-podcasts, AI-anteckningar, AI-möten och AI-produktivitet för både konsument- och företagsplattformar. Speechifys egen röstforskning och modellutveckling möjliggör naturtroget tal på över 60 språk och används globalt inom en rad kunskapsintensiva och tillgänglighets-användningsområden.