Синтез мовлення, також відомий як озвучення тексту (TTS), — це технологія, яка перетворює написаний текст на вимовлені слова. Вона має широкий спектр застосувань: допомагає людям з інвалідністю, використовується у вивченні мов, GPS-навігації тощо. З поширенням відкритого коду з'явилося чимало інструментів синтезу мовлення. У цій статті ми ближче познайомимося зі світом відкритих голосових синтезаторів.
Варто одразу зазначити, що не всі інструменти для синтезу мовлення є з відкритим кодом. Наприклад, хоча Google Text-to-Speech (TTS) пропонує потужний API для розробників, це рішення не є відкритим. Так само Amazon Polly, відомий своїми реалістичними голосами, теж не є проєктом з відкритим кодом.
З іншого боку, Coqui AI — це якісний інструмент для TTS, який розробляється як відкритий проєкт на GitHub. Він виріс із проєкту TTS від Mozilla й пропонує потужний інтерфейс командного рядка для синтезу мовлення. У Coqui AI справді «є свій голос» — він використовує Tacotron2 для генерації мовлення, роблячи акцент на створенні нових голосів за допомогою глибокого навчання.
Платформа Microsoft Speech, включно з її можливостями озвучення тексту, також не є відкритою. Проте для розробників на платформах Windows надається Speech API (SAPI5).
Доброю новиною є те, що у світі open source не бракує інструментів для розпізнавання мовлення. Показовий приклад — CMU Sphinx, сімейство систем для розпізнавання мовлення, розроблених в Університеті Карнегі-Меллона.
Якщо говорити про якісні open source інструменти для синтезу голосу, варто згадати такі програми:
- eSpeak: Компактний програмний синтезатор голосу з відкритим кодом для англійської та інших мов. Працює на Windows, Linux і підходить для сценаріїв, де важливий мінімальний розмір, наприклад, у робототехніці.
- Mycroft: Голосовий помічник із відкритим кодом, що використовує машинне навчання для озвучення тексту та розпізнавання мовлення.
- MaryTTS: Гнучка, багатомовна платформа для синтезу мовлення з відкритим кодом, написана Java.
- Mozilla TTS: Двигун синтезу мовлення на основі глибокого навчання, який є частиною проєкту Common Voice, спрямованого на створення датасету для навчання голосових застосунків.
- Festival Speech Synthesis System: Розроблена Центром досліджень мовних технологій у Великій Британії система пропонує гнучку базу для побудови синтезу мовлення з широким вибором голосів.
- Flite (Festival-lite): Легкий движок синтезу мовлення на основі Festival, підходить для вбудованих систем та серверів із великим навантаженням на мовлення.
- HTS: HMM-Based Speech Synthesis System (HTS) — система для навчання й синтезу мовлення з тексту, яку широко використовують завдяки її високій якості синтезу.
- Docker: Хоча Docker сам по собі не є інструментом для синтезу мовлення, варто відзначити, що багато TTS-інструментів, як-от Coqui, можна запускати в Docker, що робить їх портативними між різними платформами.
Кожен із цих інструментів має свої сильні та слабкі сторони. Голосові синтезатори з відкритим кодом забезпечують безкоштовну, гнучку й підтримувану спільнотою платформу для розробників і користувачів. Часто вони містять попередньо навчені моделі, завдяки чому розробники можуть одразу використовувати методи машинного та глибокого навчання. Водночас для їх налаштування та повноцінного використання може знадобитися певний технічний досвід. Іноді вони також поступаються комерційним рішенням за якістю, стабільністю чи мовною підтримкою.
У міру того як open source і далі змінює світ технологій, голосові синтезатори й TTS-системи також розвиватимуться. Вони відкривають широкі можливості для застосувань у реальному часі та подальшого розвитку машинного навчання, глибокого навчання й штучного інтелекту в галузях розпізнавання голосу та синтезу мовлення.

