IBM давно асоціюється з комп'ютерами та сучасними технологіями. Це один із тих брендів, як Microsoft чи Apple, які надовго закарбувалися у нашій пам’яті. І цьому є вагомі причини. Вони створюють одні з найкращих програмних рішень, що надають нам безліч корисних функцій для покращення повсякденного життя.
Одне з таких рішень — IBM Watson. Це застосунок на базі глибокого навчання для перетворення тексту на мовлення, який здатен перетворити будь-який письмовий контент на аудіофайл із численними реалістичними голосами. Далі ми детально розглянемо цей сервіс і перевіримо, чи виправдана його вартість з огляду на можливості.
Що таке Watson text to speech?
Watson Text to Speech по суті — це хмарний API, який використовує обробку природної мови. Він автоматично створює голоси за допомогою штучного інтелекту, що працюють різними мовами. Усі ці диктори звучать максимально природно, майже не відрізняються від справжніх людських голосів. Це чудове програмне забезпечення з великою функціональністю, яке до того ж не потребує жодних навчальних інструкцій.
Ви можете використовувати його як віртуального асистента для спілкування з іноземними партнерами їхньою рідною мовою, а також скоротити час очікування під час взаємодії з клієнтською підтримкою. Крім того, він підвищує доступність контенту для людей з дислексією, СДУГ або порушеннями зору. Але не будемо забігати наперед — про можливості та переваги поговоримо детальніше далі.
Функції
Як і всі справді круті застосунки, Watson text to speech пропонує користувачам чимало можливостей. Це не просто інструмент синтезу мовлення в реальному часі — він уміє значно більше. Тож давайте розглянемо його найпомітніші функції, гаразд?
Мови
Watson Text to Speech підтримує понад 10 різних мов. Серед них англійська, німецька, італійська, китайська, арабська та португальська. Проте, на відміну від деяких інших TTS-застосунків, ви можете імпортувати текст однією мовою, а програма озвучить його іншою. Це чудова функція, яка особливо стане у пригоді студентам-лінгвістам.
Редагування
Хоч це й не редакторський застосунок, ви маєте змогу скористатися базовими функціями для налаштування. Наприклад, відкривши Watson text to speech, ви одразу побачите діалогове вікно, у якому можна набирати текст чи вставляти вже готовий. Після цього потрібно вибрати мову та налаштувати голос.
Зокрема, можна вибрати різні діалекти та голоси, а також регулювати швидкість і висоту. Наприклад, для англійської є американський, британський та австралійський акценти. Звісно, це вже звична функціональність для сучасних TTS-застосунків, але вона цілком задовольнить пересічного користувача.
Різноманіття голосів
Як уже згадувалося, кожна з мов має кілька голосів. Для американської англійської, зокрема, доступно 11 AI-дикторів. Від Alisson до Michael — усі мають свої унікальні риси. Окрім статі, одні голоси ідеальні для навчальної e-learning-озвучки, інші — більш життєрадісні, краще пасуватимуть для відео на YouTube.
Що вирізняє його серед інших?
Отже, чим IBM Watson відрізняється від інших TTS-рішень на ринку? Окрім потужного імені бренду, застосунок справді пропонує якісні AI-голоси, які є нейронними — тобто звучать природніше й переконливіше. По-друге, можна створювати власні кастомні голоси, а це неабияка перевага для творців контенту.
Але це ще не все. Watson має ще одну цікаву можливість: передбачення вимови слів. Це дуже корисно для уточнення складних слів і робить текст на слух більш професійним.
Також тут є емоційна виразність дикторів. Кожен голос може мати свій стиль мовлення: наприклад, GoodNews, Apology чи Uncertainty. У поєднанні з налаштуваннями висоти, гучності й швидкості це справді вражає.
Переваги використання
Усе це підводить нас до головного питання — кому найбільше вигідно використовувати IBM Watson text to speech? Насправді — багатьом. Від власників малого бізнесу, які хочуть покращити взаємодію з клієнтами через чат-боти, до авторів відео для соцмереж та e-learning — цей інструмент стане у пригоді кожному. Але чи виправдовує він свою ціну? Давайте подивимось далі.
Вартість
Хоч Watson і не є open source-застосунком, проте має безкоштовну версію — план Lite. Це чудове рішення для тих, хто поки що не готовий витрачати кошти на подібне програмне забезпечення. Можна озвучити 10 000 символів на місяць, обирати серед 35 голосів, а підтримуються 16 мов та діалектів.
Також є тарифні плани Standard, Premium і Deploy Anywhere. Їхні ціни відрізняються, тож для деталей потрібно зв’язатись з IBM. Усі тарифи надають необмежене озвучення, 35 голосів і повний перелік мов та діалектів. Єдина різниця — це інтеграція з хмарними сервісами на кшталт Google Cloud.
Speechify
Звісно, окрім Watson, на ринку text to speech є й інші варіанти. Один із найпопулярніших — Speechify, який однозначно варто спробувати. Він використовує моделі машинного навчання, штучний інтелект і алгоритми OCR. Усе це дозволяє робити фото тексту, а Speechify його озвучить — на додачу до простої роботи з текстовими файлами.
Speechify має понад 30 AI-голосів, що розмовляють більше ніж 15 мовами. Speechify доступний для пристроїв на iOS і Android, для комп’ютерів macOS, а також як плагін для браузерів Google Chrome і Safari. Тож спробуйте й перетворюйте будь-який текст на аудіо.
Часті питання
Чи можна використовувати IBM Watson text to speech у комерційних цілях?
Згідно з SaaS-угодою з IBM, ви можете використовувати Watson TTS лише для особистих потреб, але не в комерційних цілях. Наприклад, ви не маєте права брати плату з інших за озвучення їхнього тексту за допомогою вашої ліцензійної версії Watson.
Як завантажити Watson text to speech?
Для початку потрібно створити акаунт у хмарі IBM. Після цього вас перенаправить на сторінку завантаження, де можна буде вибрати версію (x64 або x86) Watson text to speech, яка підходить для вашого пристрою.

