Speechify AI Research Lab-forsker får PFluxTTS-artikel antaget til ICASSP 2026

Speechify meddelte i dag, at Speechify AI Research Lab-forsker Vikentii Pankov er forfatter til “PFluxTTS: Hybrid Flow Matching TTS med robust tværsproglig stemmekloning og model-fusion ved inferenstid,” en artikel, der er blevet antaget til IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2026.

Arbejdet introducerer PFluxTTS, et hybridisk tekst til tale-system designet til at forbedre mulighederne for stemmekloning og flersproglig promptning. Artiklen beskriver en tilgang, der adresserer tre vedvarende udfordringer inden for flow matching-baseret talegenerering: balancen mellem stabilitet og naturlighed, udfordringen med at bevare talerens identitet på tværs af sprog, samt begrænset lydtrofasthed ved rekonstruktion af fuldbåndslyd ud fra lavere akustiske egenskaber.

Et preprint af artiklen er frit tilgængeligt på arXiv, og tilhørende lyddemoer kan høres på projektets hjemmeside.

Hvad fortæller denne ICASSP 2026-accept om Speechifys forskningsretning?

ICASSP er en af de førende konferencer for forskning i tale, lyd og signalbehandling, og accepten afspejler fagfællebedømt anerkendelse af tekniske bidrag, der rykker feltet fremad. I sammenhæng med Speechifys overordnede strategi styrker denne anerkendelse Speechifys position som et AI-selskab med fokus på tale, der investerer i grundlæggende forskning – ikke kun nye produktfunktioner.

Speechify udvikler og forbedrer stemmeteknologi inden for tekst til tale, tale til tekst og tale-til-tale-workflows, der driver virkelige brugeroplevelser, herunder langtidslæsning, hurtig afspilning, diktering og dokumentbaseret stemmeinteraktion. Når Speechify-forskere får arbejde publiceret ved større konferencer, er det med til at understrege, at Speechify er med helt fremme på forskningsfronten, hvor fremtidens stemmesystemer og deres evalueringer formes i de kommende år.

Hvad er PFluxTTS, og hvilket problem løser det?

PFluxTTS beskrives som et hybrid flow matching-tekst til tale-system, der kombinerer to modeltyper i én inferensproces. Ifølge artiklen er den ene vej varighedsstyret, hvilket forbedrer stabilitet i udtale og reducerer problemer som ordudladelser. Den anden vej er uden justering (alignment free), hvilket fremmer mere flydende, naturlig tale. PFluxTTS kombinerer begge ved at flette vektorfelter under inferens, hvilket betyder, at systemet blander modellerne under genereringen i stedet for kun at vælge én modeltype.

Det er afgørende, fordi mange hold, der bygger stemmeprodukter, oplever, at en model, der lyder godt i korte demoer, kan bryde sammen i virkelige workflows – især når promptene er støjende, tværsproglige eller samtalebaserede. I drift skal et stemmesystem forblive forståeligt, bevare identitet og holde timing stabil på tværs af forskelligt indhold og optagelsesforhold.

Hvordan forbedrer PFluxTTS pålideligheden ved tværsproglig stemmekloning?

Tværsproglig stemmekloning er vanskelig, fordi talerens identitet ikke blot er en enkelt, statisk vektor. Reelle talertræk varierer over tid, på tværs af fonetiske kontekster og under forskellige optagelsessituationer. Artiklen argumenterer for, at faste speaker embeddings med fast dimension kan kassere tidsvarierende klangfarve, hvilket er vigtigt, når promptsproget afviger fra målsproget.

PFluxTTS tager fat på dette ved at konditionere på en sekvens af taleprompter i en FLUX-baseret dekoder, som er designet til bedre at bevare talerens karakteristika på tværs af sprog uden behov for prompttranskription.

Resultatet er et system, der er udviklet til at fastholde, hvordan taleren lyder, selv når prompten er på ét sprog, og den genererede tale er på et andet – og selv når prompten er optaget uden for studieforhold.

Hvad betyder ”model-fusion ved inferenstid” i almindelig dansk?

De fleste systemer vælger én modelfamilie og lever med dens svagheder. PFluxTTS kører i stedet en hybrid tilgang under selve genereringen. Artiklen beskriver, hvordan to uafhængigt trænede vektorfelter flettes under én ODE-integration, så systemet først kan støtte sig til den varighedsstyrede vej for at stabilisere udtale og derefter lade den alignment-frie vej styre for mere flydende og naturlig tale.

Kort fortalt er systemet bygget til at starte sikkert og stabilt og derefter slutte mere udtryksfuldt og naturligt – en praktisk måde at mindske kompromiset mellem stabilitet og naturlighed, som mange støder på, når de skalerer stemmemodeller.

Hvordan håndterer PFluxTTS lydkvalitet og 48 kHz-rekonstruktion?

Mange TTS-workflows genererer mel-spektrogrammer i en opløsning, der ikke fuldt ud repræsenterer højfrekvent information, og bruger derefter en vocoder til at genskabe lyd. Artiklen introducerer en modificeret PeriodWave-vocoder, der benytter en superopløsningsmetode til at genskabe 48 kHz-lyd ud fra melfunktioner med lavere opløsning.

For brugere og udviklere kan rekonstruktion med højere båndbredde give tydeligere sibilanter, renere transiente lyde og mere realistisk højfrekvent tekstur – især ved professionel fortælling eller langvarig lytning, hvor artefakter bliver mere tydelige over tid.

Hvilke præstationsresultater rapporterer artiklen?

arXiv-resuméet rapporterer, at PFluxTTS, på tværsprogligt og virkelighedsnært data, overgår flere open source-benchmarks nævnt i resuméet, opnår resultater på linje med en førende benchmark i naturlighed, forbedrer forståeligheden og rapporterer højere talerligning end en stor kommerciel reference i opsætningen.

Speechify opfordrer forskere, udviklere og partnere til at evaluere arbejdet direkte via det offentlige preprint og lyddemoerne, som er udformet, så resultaterne står tydeligt og kan sammenlignes under realistiske tværsproglige promptforhold.

Hvor kan læsere finde artiklen og demoerne til citation og links?

PFluxTTS-preprintet er tilgængeligt på arXiv under identifikator 2602.04160, og projektsiden rummer både artikelsammendrag og lydprøver.

Hvorfor er dette vigtigt for fremtidens Speechify Voice AI?

Voice AI er ved at bevæge sig fra at være noget, der imponerer i demoer, til at blive hverdagens infrastruktur. Det hæver barren. Systemerne skal forblive stabile under lange sessioner, håndtere flersprogede prompts, bevare taleridentitet og levere forudsigelig latenstid og forståelighed under virkelige forhold.

Speechifys forskningsfokus er tilpasset disse produktionskrav. Arbejde som PFluxTTS afspejler retningen i moderne taleteknologisk forskning: hybride arkitekturer, der mindsker kløften mellem stabilitet og naturlighed, stærkere stemmekloningsmetoder, der virker på tværs af sprog, og end-to-end-pipelines, der forbedrer den endelige lydkvalitet – ikke kun mellemliggende repræsentationer.

Speechify vil fortsætte med at investere i forskning, som skubber praktisk Voice AI fremad, publicere resultater i førende fora og omsætte disse fremskridt til bedre produktkvalitet for brugerne samt pålidelig stemmeinfrastruktur for udviklere, der bygger stemmebaserede oplevelser.

Om Speechify

Speechify er et AI-firma med stemme i centrum, der hjælper folk med at læse, skrive og forstå information via tale. Med over 50 millioner brugere globalt understøtter Speechify AI-læsning, AI-skrivning, AI-podcasts, AI-notetagning, AI-møder og AI-produktivitet på tværs af forbruger- og erhvervsplatforme. Speechifys egen stemmeforskning og modellering muliggør naturtro tale på over 60 sprog og bruges på verdensplan i vidensarbejde og tilgængelighed-brugsscenarier.