Технології синтезу мовлення (TTS) стали незамінною частиною допоміжних інструментів, які допомагають незліченній кількості користувачів ПК працювати з письмовим текстом — незалежно від того, чи ви читаєте для задоволення, навчаєтесь або працюєте.
Як і можна здогадатися, ринок TTS зараз дуже насичений: є безліч додатків і розширень браузера на вибір. Більшість із них справді корисні, відчутно підвищують продуктивність і роблять взаємодію з пристроями комфортнішою. Сьогодні ми зосередимося на рішенні TTS від Microsoft — Azure.
Що таке Microsoft: текст у мовлення?
То що ж таке Azure? Щоб відповісти на це запитання, поставимо інше: чи хочете ви мати змогу створювати контент із природним озвученням або слухати, як улюблені сторінки читають вам уголос — ще й налаштовуючи швидкість, тон, вимову та інші параметри? Microsoft Azure дозволяє це й навіть більше.
Azure — це хмарна платформа, сповнена можливостей. Окрім когнітивних сервісів Azure, які надають чудові технології синтезу мовлення та розпізнавання мовлення, ви можете використовувати хмарне сховище та аналітику Azure для підвищення продуктивності — без необхідності занурюватися в складне машинне навчання.
Azure сумісний із різними open-source рішеннями, що робить його досить гнучким. Додавати озвучення у власні додатки та дозволяти вашій цільовій аудиторії користуватися перевагами глибокого машинного навчання стало значно простіше, особливо з підтримкою понад сотні мов і діалектів, які Azure пропонує на вибір.
Як користуватися додатком текст у мовлення від Microsoft на iPhone чи комп’ютері
Налаштувати Microsoft Azure на пристрої досить просто — потрібно лише кілька кліків, щоб зареєструватися на офіційному сайті Azure. Однак якщо ви користуєтеся лише Outlook, Word, PowerPoint, Docs і OneNote, нічого додатково встановлювати не потрібно, адже ці програми вже мають вбудовану функцію синтезу мовлення під назвою Speak.
Хоча це й не найякісніший сервіс озвучення, Speak дуже виручає, коли потрібно щось терміново прослухати, і його надзвичайно просто налаштувати:
- Натисніть опцію Налаштувати панель інструментів та клацніть
- Обрати Більше команд
- Обрати Всі команди
- Знайти Speak, вибрати її та натиснути Додати
Альтернативи додатку Microsoft текст у мовлення
Як ми вже згадували у вступі, читалок тексту безліч: від професійних додатків із космічними цінами до майже сирих SDK для розпізнавання мовлення на GitHub. Якщо голосовий асистент Microsoft текст у мовлення вам не до вподоби або ви просто шукаєте щось нове — ось кілька альтернатив, які точно вас зацікавлять.
Speechify
Під номером 1 — Speechify, найпопулярніший інструмент TTS, який може перетворити майже будь-що на аудіофайл. Він чудово працює з усіма додатками Microsoft, а моделі синтезу мовлення вражають своєю природністю. Додаємо до цього чудові API-можливості — і отримуємо універсальне рішення для будь-яких задач і сценаріїв використання.
Amazon Polly
На другому місці — Amazon Polly, відмінне рішення, відоме природним звучанням і розмаїттям стилів мовлення. Підтримує багато мов, а завдяки нейронній технології «текст у мовлення» ви отримуєте безліч налаштувань для створення живої та автентичної озвучки.
Google Cloud Text to Speech
Третє місце — Google Cloud Text to Speech. Не дивно, що там, де відбувається технічний прогрес, є Google, і TTS — не виняток. Рішення ґрунтується на SSML (мова розмітки синтезу мовлення) і працює за моделлю оплати за символ, тож стане і корисним, і бюджетним вибором для разових проєктів.
IBM Watson Text to Speech
IBM Watson посідає четверте місце. Його головна перевага — універсальність у корпоративному середовищі. Watson можна використовувати і як віртуального асистента, і як інструмент підтримки клієнтів, і як систему «текст у мовлення». А ще це рішення дуже вигідне за ціною, тож краще для гнучких задач годі й шукати.
Readspeaker
П'яте місце — перевірений часом Readspeaker. Понад чверть сторіччя досвіду дозволили йому досконало відточити синтез мовлення. Підтримує понад сто мов і чудово пасує для студій озвучення та e-learning — працює як онлайн, так і офлайн.
NaturalReader
Шосте місце — NaturalReader. Додаток чудово справляється з синтезованим мовленням у реальному часі й працює практично з усіма потрібними на ПК програмами. Але головна фішка NaturalReader — так званий режим рідера, який очищає текст від усього зайвого, наприклад, реклами.
VoiceDream Reader
Сьоме місце — VoiceDream Reader, остання на сьогодні альтернатива Microsoft Azure «текст у мовлення». На жаль, хоча VoiceDream Reader досить добрий для простих задач, багато користувачів нарікають на слабку доступність та неідеальну синхронізацію. Але якщо вам потрібне швидке рішення і не цікавлять найпросунутіші нейронні технології синтезу мовлення, VoiceDream із цим упорається.
Питання та відповіді
Чи безкоштовний TTS у Windows 10?
Для Windows 10 існує безліч рішень TTS. Деякі з них безкоштовні, інші — платні. Вбудована функція Speak, яка входить до складу Windows 10 і працює, наприклад, в Outlook та Word, є безкоштовною. Але для складніших рішень із налаштуванням нейронних голосів, як у Microsoft Azure, потрібна підписка.
Який голос TTS є найреалістичнішим?
Найреалістичніші голоси TTS пропонують просунуті інструменти, такі як Amazon Polly та Speechify. Рівень реалістичності залежить від мови, моделі голосу та обраних параметрів.
У чому різниця між Text to Speech і Voice Recognition?
Хоч багато програм TTS пропонують і текст у мовлення, і розпізнавання голосу, важливо не плутати ці функції. Текст у мовлення перетворює текст на аудіо, даючи змогу сприймати інформацію у фоновому режимі. Розпізнавання голосу ж аналізує людське мовлення для ідентифікації або інтерпретації того, хто говорить.

