Технології синтезу мовлення на основі тексту стрімко розвиваються, особливо за останні кілька років. Завдяки покращенням у сфері штучного інтелекту сучасні TTS-системи можуть забезпечувати високу якість озвучування, що майже не відрізняється від людської мови.
Microsoft VALL-E — це найновіше рішення, яке може зробити синтез мовлення максимально реалістичним. Це нейромережева модель мовного кодека, заснована на zero-shot машинному навчанні.
Якщо попереднє речення звучить як наукова фантастика, не хвилюйтеся. Нижче ми розберемо складні концепції, що лежать в основі VALL-E.
Пояснення Microsoft VALL-E
Моделі штучного інтелекту стрімко набирають потужності. Зараз про ChatGPT від OpenAI знають практично всі — це, можливо, найбільш «людяний» приклад ІІ. І, ймовірно, ви також бачили AI-арт, створений рушієм DALL-E.
Окрім стартапів на зразок OpenAI, глобальні компанії на кшталт Microsoft також є вагомими гравцями у сфері штучного інтелекту.
Дослідники Microsoft останнім часом активно працюють над удосконаленням синтезу мовлення. VALL-E є саме таким нововведенням.
Новий ІІ, ймовірно, стане справжнім проривом у сфері TTS, оскільки він здатний генерувати людське мовлення лише з невеликого аудіофрагмента. Усього трисекундного акустичного зразка достатньо, щоб VALL-E «вловив» індивідуальні мовні риси мовця.
Після отримання короткого зразка голосу ІІ може імітувати тембр та навіть емоції людини. Не менш вражає й те, що VALL-E відтворює акустичне середовище, властиве оригінальному співрозмовнику.
Простіше кажучи, модель VALL-E надзвичайно точно передає індивідуальність мовця. Приклади її роботи можна прослухати на GitHub — Microsoft виклала зразки разом із детальним описом ІІ.
Звісно, подібній технології знайдеться безліч застосувань, наприклад, створення подкастів чи аудіокниг. Потенціал лише зростає, коли VALL-E поєднується з генеративними моделями, як-от GPT-3.
Але такі технології, як VALL-E, можуть використовуватися й у зловмисних цілях.
Оскільки VALL-E може моторошно точно наслідувати реальну людину, нескладно уявити, як зловмисники здатні використовувати цю технологію для шахрайства чи шкідливих діпфейків без згоди. Такий ризик змусив Microsoft оприлюднити етичну заяву.
У цій заяві компанія рекомендує використовувати спеціалізовані моделі редагування мовлення, які забезпечують отримання згоди від оригінального мовця.
Проте суперечки довкола можливого застосування VALL-E — це питання майбутнього. Наразі цікавіше інше запитання:
Як штучний інтелект відтворює такі складні мовні шаблони, використовуючи лише три секунди зразка аудіо?
Не дивно, що відповідь виявляється досить складною.
VALL-E навчався на величезних об'ємах даних: на тисячах годин англійського мовлення. Це дозволило ІІ бездоганно імітувати англійську мову. Однак VALL-E — це не типовий TTS-синтезатор: у його основі — передові методи машинного навчання.
Ми вже згадували назву технології: zero-shot нейрокодекова мовна модель. Давайте розглянемо, що це означає на практиці.
Що таке zero-shot нейрокодекова мовна модель?
Почнемо з простішого терміна — «zero-shot». Він позначає технологію для TTS-систем, яка дозволяє генерувати мовлення на основі невідомих даних. Іншими словами, комп'ютер може озвучувати текст, з яким не стикався раніше.
Ще вражаюче те, що zero-shot-технології дозволяють машині озвучувати текст без додаткового навчання. По суті, це схоже на те, як людина може читати незнайомий текст однією зі знаних мов.
Тепер до складнішої частини — «нейрокодекова мовна модель» потребує детальнішого пояснення.
TTS-рушії використовують аудіокодеки для створення звукових хвиль за письмовим текстом. Кодек допомагає ІІ перетворювати літери, слова й речення у звуки. Нейрокодек виконує ту саму функцію, але побудований на потужній нейронній мережі.
Звичайно, виникає ще одне запитання: що таке нейронна мережа?
Пояснимо коротко. Нейронна мережа намагається імітувати принцип роботи людського мозку. Вона складається зі штучних нейронів — вузлів, сполучених між собою і організованих у шари.
Складна структура дозволяє машині досягати так званого «глибинного навчання» та розпізнавати й адаптувати незнайомі патерни.
Нейрокодек забезпечує роботу мовної моделі — іншої частини цього рухового механізму text to speech.
Мовна модель спирається на датасети, щоб розуміти будь-який текст у контексті живої мови. Тобто саме так машина «осмислює» текст.
У випадку з VALL-E основу мовної моделі становила LibriLight — аудіотека, зібрана Meta від Facebook.
Прослухайте передову технологію TTS у дії від Speechify
Хоча VALL-E ще недоступний публічно, ви можете почути, як звучить передова TTS-система завдяки Speechify. Speechify — це сервіс синтезу мовлення, який може озвучувати текст практично з будь-якого джерела.
Надрукований текст, веб-сторінка чи відсканована сторінка — Speechify миттєво озвучить усе це. Ба більше, система має голоси дикторів, які звучать природно. На відміну від звичайних «роботизованих» TTS-рушіїв, Speechify звучить майже як жива людина.
Крім цього, ви можете налаштовувати параметри озвучення у Speechify. Обирайте мову, диктора та швидкість читання — слухайте будь-який текст саме так, як вам зручно.
Якщо вас зацікавили ці можливості, ви можете спробувати Speechify безкоштовно вже сьогодні.
Часті запитання
Чи можуть люди користуватися VALL-E?
Існує багато побоювань щодо зловживання VALL-E — особливо це стосується крадіжки особистості. Саме з цієї причини Microsoft вирішила не робити VALL-E загальнодоступним.
Що таке Microsoft AI?
Microsoft AI — це не окремий продукт. Натомість ця програма компанії виступає основою для розробки штучного інтелекту. Microsoft AI включає рішення для науки про дані, розмовного ІІ, робототехніки, машинного навчання та інших інновацій у галузі.
Що таке голосовий інтерфейс?
Голосовий інтерфейс — це саме те, як звучить: інтерфейс, яким ви керуєте за допомогою голосових команд. Така технологія вже є звичною для розумних пристроїв — наприклад, Alexa від Amazon, Siri від Apple, Cortana від Microsoft чи Google Assistant.
Що таке робот?
Термін «робот» означає будь-яку машину, яка працює автономно. Такі машини розроблені для заміни людської праці. Хоча в масовій культурі роботів часто зображують людиноподібними, насправді більшість із них зовсім не схожі на людину. Ба більше, вони можуть не мати навіть фізичної форми — наприклад, сучасні віртуальні асистенти теж вважаються роботами.

