Speechify сегодня объявила, что исследователь Лаборатории Искусственного Интеллекта Speechify Викентий Панков является автором статьи “PFluxTTS: Гибридная Flow Matching TTS с устойчивым многоязычным клонированием голоса и объединением моделей на этапе вывода”, которая была принята на Международную конференцию IEEE по акустике, речи и обработке сигналов (ICASSP) 2026.
В работе представлен PFluxTTS — гибридная система синтеза речи, разработанная для повышения готовности к промышленному использованию в задачах клонирования голосов и многоязычного озвучивания. В статье описан подход, нацеленный на три ключевые проблемы в генерации речи с помощью flow matching: компромисс между стабильностью и естественностью, сложности сохранения индивидуальности голоса при смене языка и ограниченная точность волн при восстановлении полного частотного диапазона аудио из низкочастотных акустических признаков.
Препринт статьи доступен на arXiv, а сопровождающие аудиодемонстрации размещены на сайте проекта.
Что означает принятие на ICASSP 2026 для исследовательского направления Speechify?
ICASSP — одна из ведущих конференций по исследованиям в области речи, аудио и обработки сигналов. Принятие статьи свидетельствует о признании экспертным сообществом технических достижений, продвигающих современные технологии. В контексте глобальной стратегии Speechify это достижение укрепляет позицию Speechify как компании, ориентированной на голосовые технологии искусственного интеллекта и делающей ставку не только на продукт, но и на фундаментальные исследования.
Speechify развивает и совершенствует голосовые технологии для синтеза речи, распознавания речи и workflow «речь-в-речь», которые обеспечивают реальные пользовательские сценарии: прослушивание длинных текстов, ускоренное воспроизведение, диктовку и голосовое взаимодействие с документами. Когда исследователи Speechify публикуют статьи, принимаемые на ведущих конференциях, это подтверждает, что Speechify находится на передовой исследований, которые определяют будущее построения и оценки голосовых систем.
Что такое PFluxTTS и какую проблему он решает?
PFluxTTS описывается как гибридная система flow matching для синтеза речи, объединяющая два стиля моделей в одном процессе вывода. Согласно статье, один трек — управляемый длительностью, что способствует стабильности синхронизации и снижает вероятность пропуска слов. Второй — не требует выравнивания, что повышает беглость и естественность речи. PFluxTTS объединяет оба подхода с помощью слияния векторных полей на этапе вывода, то есть модель комбинирует оба варианта генерации, а не выбирает только одно семейство моделей.
Это важно, потому что многие команды, создающие голосовые продукты, сталкиваются с тем, что модель, звучащая хорошо в коротких демо, может не справиться с реальным использованием, особенно при шумных, многоязычных или разговорных подсказках. В реальной эксплуатации голосовой системе важно сохранять разборчивость, индивидуальность и стабильность таймингов на всём разнообразном контенте и в разных условиях записи.
Как PFluxTTS повышает надежность кросс-лингвального клонирования голоса?
Кросс-лингвальное клонирование голоса сложно, потому что индивидуальность говорящего — это не статический вектор. Реальные голосовые особенности меняются со временем, зависят от фонетического контекста и условий записи. В статье показано, что фиксированные эмбеддинги голоса могут терять временные тембровые признаки, которые становятся важны, если язык подсказки отличается от целевого языка.
PFluxTTS решает эту задачу, используя последовательность эмбеддингов голосовых подсказок внутри декодера на базе FLUX, что позволяет лучше сохранять индивидуальные характеристики говорящего между языками, не требуя транскрипций подсказок.
В результате система способна сохранять голос говорящего даже тогда, когда подсказка на одном языке, а сгенерированная речь — на другом, и даже если запись подсказок сделана в реальных условиях, а не в студии.
Что значит “слияние моделей на этапе вывода” простыми словами?
В большинстве систем выбирается одно семейство моделей, принимая его слабые стороны. PFluxTTS вместо этого использует гибридный подход на этапе генерации. В статье описано, как два независимо обученных векторных поля сливаются в ходе единой ODE-интеграции, что позволяет системе сначала полагаться на траекторию, управляемую длительностью, для стабилизации выравнивания, а затем передавать преимущество траектории без выравнивания для повышения беглости и естественности.
Проще говоря, система сначала работает максимально стабильно и надежно, затем завершает генерацию выразительно и естественно — это практичный способ снизить типичный компромисс “либо стабильность, либо естественность”, с которым сталкиваются команды, внедряя масштабируемые голосовые модели.
Как PFluxTTS обеспечивает качество аудио и реконструкцию в 48 кГц?
Во многих пайплайнах TTS генерируются признаки мел-спектрограммы на разрешении, не полностью отражающем высокочастотные детали, после чего vocoder восстанавливает аудио. В статье предложен модифицированный PeriodWave vocoder, который использует подход суперразрешения для восстановления волны с частотой 48 кГц из мел-признаков с низкой частотой.
Для пользователей и разработчиков такое повышенное разрешение даёт более чёткое звучание свистящих согласных, чище переходные процессы и более реалистичную высокочастотную структуру — особенно важно для профессиональной озвучки или продолжительного прослушивания, где артефакты со временем становятся заметнее.
Какие показатели производительности приведены в статье?
В реферате на arXiv отмечается, что для кросс-лингвальных данных из реальных условий PFluxTTS превосходит несколько опенсорсных базовых моделей, перечисленных в реферате, достигает сопоставимых результатов с ведущим эталоном по естественности, улучшая при этом метрики разборчивости, и демонстрирует большую схожесть голоса с эталонным коммерческим решением в рамках описанной методики.
Speechify приглашает исследователей, разработчиков и партнёров самостоятельно оценить работу по открытой публикации препринта и прослушать аудиодемо, специально подготовленные для проверки результатов в реальных сценариях многоязычного озвучивания.
Где можно найти статью и демо для цитирования и ссылок?
Препринт PFluxTTS доступен на arXiv под идентификатором 2602.04160, а на сайте проекта размещены краткий обзор и аудиопримеры.
Почему это важно для будущего Voice AI от Speechify?
Голосовой ИИ переходит из разряда экспериментальных демо в ежедневную инфраструктуру. Это повышает требования к системам: они должны работать стабильно в длительных сессиях, поддерживать многоязычные подсказки, сохранять индивидуальность говорящего и обеспечивать предсказуемую задержку и разборчивость в реальных условиях.
Speechify фокусируется в своих исследованиях именно на этих производственных задачах. Работа над PFluxTTS отражает современные тренды исследований речи: гибридные архитектуры, устраняющие разрыв между стабильностью и естественностью, более эффективные методы клонирования голоса для разных языков, а также end-to-end пайплайны, улучшающие финальное качество аудио, а не только промежуточные характеристики.
Speechify продолжит инвестировать в исследования, направленные на развитие прикладного голосового ИИ, публиковать результаты в ведущих изданиях и внедрять достижения в пользовательский опыт и надёжную голосовую инфраструктуру для разработчиков, создающих voice-first решения.
О Speechify
Speechify — это компания в сфере голосового искусственного интеллекта, которая помогает людям читать, писать и воспринимать информацию с помощью речи. Более 50 миллионов пользователей по всему миру доверяют Speechify для AI-чтения, AI-письма, AI-подкастов, AI-конспектирования, AI-встреч и AI-продуктивности как для частных лиц, так и для компаний. Собственные исследования голосовых технологий и модели Speechify обеспечивают реалистичную речь более чем на 60 языках и используются по всему миру для различных задач, связанных с интеллектуальной работой и доступностью.