Завдяки досягненням у сфері машинного навчання клонування голосу за останні роки помітно просунулося вперед, і сьогодні ми маємо одні з найвражаючих рішень для синтезу мовлення. Одним із найважливіших кроків став підхід zero-shot, який уже змінює технологічний сектор. У цій статті ми розглянемо, що таке zero-shot клонування голосу та як воно впливає на індустрію.
Пояснення zero-shot машинного навчання
Мета клонування голосу — відтворити голос мовця, синтезуючи його тембр і особливості за допомогою лише невеликої кількості записаного мовлення. Іншими словами, клонування голосу — це передова технологія, яка використовує штучний інтелект для створення голосу, схожого на конкретну людину. Для цього існує три основні підходи до клонування голосу:
One-shot навчання
One-shot навчання — це коли модель навчається всього на одній фотографії чогось нового, але при цьому повинна надалі розпізнавати й інші зображення цього ж об’єкта.
Few-shot навчання
Few-shot навчання — це коли модель бачить кілька зображень чогось нового і згодом здатна впізнавати подібні об’єкти, навіть якщо вони дещо відрізняються.
Zero-shot навчання
Zero-shot навчання — це підхід, за якого модель вчиться розпізнавати нові об’єкти чи поняття, які вона раніше не бачила, за описовими наборами даних, наприклад VCTK. Тобто модель навчається працювати з новими речами без фотографій, прикладів чи інших типових навчальних даних. Натомість ви надаєте їй список характеристик чи ознак, які описують новий об’єкт.
Що таке клонування голосу?
Клонування голосу — це відтворення голосу мовця за допомогою методів машинного навчання. Мета клонування голосу — зімітувати тембр мовця, використовуючи лише невелику кількість його записів. У клонуванні голосу кодувальник мовця перетворює мовлення людини на код, який потім перетворюється у вектор завдяки вбудовуванню мовця. Далі цей вектор використовують для навчання синтезатора (вокодера) для створення мовлення, що максимально подібне до оригінального голосу. Синтезатор приймає на вхід вектор вбудовування мовця та мел-спектрограму — візуальне представлення мовного сигналу. Це базовий процес клонування голосу. Результатом є вихідна звукова хвиля, тобто згенерований голос. Зазвичай цей процес здійснюється за допомогою методів машинного навчання, зокрема глибокого навчання. Крім того, для оцінки якості синтезованого мовлення використовують різні датасети та метрики. Сфери застосування клонування голосу надзвичайно широкі, зокрема:
- Конвертація голосу — можливість змінити запис одного голосу так, щоб він звучав як інша людина.
- Верифікація мовця — заява особи, ким вона є, перевіряється шляхом аналізу голосу.
- Мультиспікерний синтез мовлення — створення мовлення з друкованого тексту й ключових слів
Серед популярних алгоритмів клонування голосу — WaveNet, Tacotron2, Zero-shot Multispeaker TTS, а також Microsoft’s VALL-E. Крім того, на GitHub можна знайти чимало інших open-source алгоритмів із відмінними результатами. Якщо ви хочете дізнатися більше про техніки клонування голосу, зверніть увагу на ICASSP, Interspeech або IEEE International Conference.
Zero-shot навчання у клонуванні голосу
Щоб досягти zero-shot клонування голосу, використовують кодувальник мовця, який виділяє мовні вектори з тренувальних даних. Такі вектори можна застосовувати для обробки сигналів від мовців, які не входили до навчального набору даних (так звані невідомі мовці). Для цього використовують кілька методів навчання нейронних мереж, зокрема:
- Згорткові моделі (Convolutional models) — це моделі нейронних мереж, які застосовують для розв'язання задач класифікації зображень.
- Авторегресивні моделі — здатні прогнозувати майбутні значення на основі попередніх.
Одне з ключових завдань zero-shot клонування голосу — забезпечити високу якість синтезованої мови та її природне звучання для слухача. Для цього використовують різні метрики оцінки якості синтезу мовлення:
- Схожість із мовцем — наскільки синтезована мова подібна до мовлення цільового мовця.
- Природність мовлення — наскільки природно синтезована мова сприймається слухачем.
Фактичні дані з реального світу, які використовуються для навчання та оцінки моделей штучного інтелекту, називаються референсним аудіо (ground truth reference audio). Ці дані застосовують для тренування та нормалізації. Крім того, використовують техніки style transfer (переносу стилю), щоб підвищити узагальнювальну здатність моделі. Передача стилю передбачає використання двох входів — один для основного контенту, інший — для стилю, що допомагає моделі краще працювати з новими даними, тобто пристосовуватися до нових ситуацій.
Спробуйте найсучасніші технології клонування голосу в дії зі Speechify Studio
AI-клонування голосу від Speechify Studio дає змогу створити власну AI-версію свого голосу — ідеально для персоналізації озвучення, побудови впізнаваності бренду чи для додавання знайомої інтонації до будь-якого проекту. Просто запишіть зразок, і передові AI-моделі Speechify створять реалістичну цифрову копію, яка звучатиме як ви. Потрібна ще більша гнучкість? Вбудований voice changer дозволяє перетворювати існуючі записи на будь-який із понад 1000 AI-голосів Speechify Studio, надаючи повний творчий контроль над тоном, стилем і подачею. Ви можете вдосконалювати власний голос або трансформувати аудіо під будь-який контекст — Speechify Studio забезпечує професійний рівень персоналізації голосу у ваших руках.
Поширені запитання
Яка мета клонування голосу?
Клонування голосу має на меті створювати якісне, природне мовлення, яке можна застосовувати в різних сферах для покращення спілкування та взаємодії між людиною і машиною.
У чому різниця між конвертацією і клонуванням голосу?
Конвертація голосу — це модифікація мовлення однієї людини так, щоб воно звучало як інша особа, тоді як клонування голосу створює новий голос, схожий на конкретного мовця.
Яке програмне забезпечення може клонувати голос людини?
Існує безліч рішень, серед яких Speechify, Resemble.ai, Play.ht та інші подібні сервіси.
Як можливо розпізнати підроблений голос?
Одна з найпоширеніших технік — спектральний аналіз, тобто аналіз аудіосигналу для виявлення характерних ознак голосу й визначення аудіо-діпфейків.

