Дослідник Лабораторії AI-досліджень Speechify опублікував статтю про PFluxTTS, яку прийняли на ICASSP 2026

Speechify сьогодні оголосила, що дослідник Лабораторії AI-досліджень Speechify Вікентій Панков є автором статті “PFluxTTS: Гібридний Flow Matching TTS із надійним крослінгвальним клонуванням голосу та злиттям моделей під час інференсу,” яку прийнято на IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2026.

У роботі представлено PFluxTTS – гібридну систему текст у мовлення, створену для підвищення готовності до продакшну для клонування голосу та багатомовних підказок. У статті описано підхід, спрямований на три стійкі проблеми у генерації мовлення на основі flow matching: компроміс між стабільністю та природністю, складність збереження ідентичності диктора між мовами та обмежену якість відтворення хвильових форм при реконструкції повносмугового аудіо з ознак низької частоти.

Препринт статті загальнодоступний на arXiv, а звукові демонстрації можна прослухати на сайті проєкту.

Що означає прийняття на ICASSP 2026 для дослідницького напряму Speechify?

ICASSP — одна з провідних конференцій у галузі досліджень мовлення, аудіо та обробки сигналів, і прийняття туди свідчить про визнання технічного внеску через рецензування, що сприяє розвитку сучасних технологій. У контексті Speechify та її ширшої стратегії це прийняття підкреслює позицію Speechify як AI-компанії з фокусом на голосі, котра інвестує у фундаментальні дослідження, а не лише у функціонал продукту.

Speechify розробляє та вдосконалює голосові технології для текст у мовлення, мовлення у текст та голосових робочих процесів, які забезпечують справжній користувацький досвід: тривале прослуховування, прослуховування на великій швидкості, диктування та взаємодію з голосовими документами. Коли дослідники Speechify публікують роботи, прийняті на провідні конференції, це демонструє, що Speechify працює на передньому краї досліджень, які визначають принципи побудови та оцінювання голосових систем у майбутньому.

Що таке PFluxTTS і яку проблему він вирішує?

PFluxTTS подається як гібридна система flow matching текст у мовлення, яка поєднує два типи моделей в одному процесі інференсу. За даними статті, один шлях орієнтований на тривалість, що зазвичай покращує стабільність вирівнювання та зменшує такі проблеми, як пропуск слів. Інший шлях не залежить від вирівнювання, що сприяє кращій природності мовлення та сприйняттю. PFluxTTS поєднує обидва ці підходи під час інференсу шляхом злиття векторних полів моделей, тобто система комбінує керування обох моделей під час генерації, а не обирає лише одну модель.

Це важливо, оскільки багато команд, які створюють голосові продукти, стикаються з тим, що модель, яка добре звучить у коротких демонстраціях, може не впоратися з реальними задачами, особливо якщо підказки багатомовні, шумні чи розмовні. У продакшні система має зберігати зрозумілість, ідентичність диктора та стабільність таймінгу в різноманітних умовах і з різним контентом.

Як PFluxTTS підвищує надійність крослінгвального клонування голосу?

Крослінгвальне клонування голосу складне, бо ідентичність диктора — це не один статичний вектор. Реальні голосові особливості змінюються з часом, у різних фонетичних контекстах і за різних умов запису. У статті стверджується, що фіксовані векторні ознаки диктора можуть втрачати важливі темброві нюанси, які стають критичними, якщо мова підказки відрізняється від мови цільового мовлення.

PFluxTTS вирішує це за рахунок умовного моделювання на основі послідовності мовленнєвих ембедингів у FLUX-декодері, спеціально розробленому для кращого збереження характеристик диктора між мовами без потреби транскрипції підказки.

У підсумку система краще зберігає схожість із голосом диктора незалежно від того, чи підказка однією мовою, а згенерований голос — іншою, а також якщо підказки записані не в студії, а в природних умовах.

Що означає “злиття моделей під час інференсу” простими словами?

Більшість систем обирають одне сімейство моделей і змушені миритися з його недоліками. PFluxTTS натомість використовує гібридний підхід під час генерації. У статті описується поєднання двох незалежно тренованих векторних полів під час одного ODE-інтегрування, тож система може спочатку покладатися на шлях, керований тривалістю, для стабілізації вирівнювання, а потім дозволити шляху без вирівнювання домінувати для кращої природності мовлення.

Простіше кажучи, система спочатку працює максимально безпечно й стабільно, а завершує висловлювання виразно й природно. Це практичний спосіб мінімізувати компроміс “або тільки стабільно, або тільки природно”, з яким часто стикаються команди при впровадженні мовленнєвих моделей у масштабі.

Як PFluxTTS покращує якість аудіо та реконструкцію на 48 кГц?

Багато TTS-конвеєрів генерують мелові спектрограми з роздільною здатністю, що не повністю відтворює високочастотні деталі, і потім використовують вокодер для відновлення аудіо. У статті представлено модифікований вокодер PeriodWave, який застосовує підхід суперроздільної здатності для отримання аудіо з частотою дискретизації 48 кГц із мелових ознак низької частоти.

Для користувачів і розробників відновлення з ширшою смугою пропускання забезпечує чіткіші сибілянти, чистіші транзієнти й реалістичнішу високочастотну текстуру — особливо для професійного озвучування чи тривалого прослуховування, де з часом артефакти стають помітними.

Які показники продуктивності наведені у статті?

Згідно з анотацією на arXiv, на крослінгвальних даних із реального світу, PFluxTTS перевершує кілька open source базових моделей, згаданих в анотації, демонструє результати на рівні кращих зразків за природністю, підвищує метрики зрозумілості та забезпечує більшу схожість із диктором порівняно з основними комерційними аналогами в зазначеному налаштуванні.

Speechify запрошує дослідників, розробників та партнерів безпосередньо оцінити цю роботу за допомогою загальнодоступного препринта й аудіодемонстрацій, створених для того, щоб результати були чутними та порівнюваними в реальних крослінгвальних умовах.

Де знайти статтю та демонстрації для цитування й перегляду?

Препринт PFluxTTS доступний на arXiv під ідентифікатором 2602.04160, а сайт проєкту містить стислий опис статті та зразки аудіо.

Чому це важливо для майбутнього Voice AI від Speechify?

Voice AI переходить від ефектних демо до щоденної інфраструктури. Це підвищує вимоги: системи повинні залишатися стабільними протягом тривалих сесій, підтримувати багатомовні підказки, зберігати ідентичність диктора та забезпечувати передбачувану затримку й зрозумілість у реальних умовах.

Speechify фокусує свої дослідження відповідно до цих продакшн-вимог. Розробки на кшталт PFluxTTS відображають сучасний тренд в області мовлення: гібридні архітектури, що скорочують розрив між стабільністю й природністю, потужні методи клонування голосу для різних мов та наскрізні пайплайни, які підвищують якість фінального аудіо, а не лише проміжних ознак.

Speechify й надалі інвестуватиме в дослідження практичного Voice AI, публікуватиме результати у провідних журналах і перетворюватиме ці досягнення на якість продукту для користувачів та надійну голосову інфраструктуру для розробників, які створюють продукти з голосовим фокусом.

Про Speechify

Speechify — це AI-компанія з фокусом на голосові технології, що допомагає людям читати, писати та сприймати інформацію голосом. Довіра понад 50 мільйонів користувачів у світі дозволила Speechify стати рушієм AI-читання, AI-письма, AI-подкастів, AI-конспектів, AI-зустрічей та AI-продуктивності у споживчих і корпоративних рішеннях. Власні дослідницькі розробки та моделі Speechify забезпечують природне мовлення понад 60 мовами і використовуються в усьому світі для широкого спектра завдань та доступності.