Технології перетворення тексту в мовлення (TTS) та системи синтезу мовлення використовують різні моделі штучного інтелекту для генерації природного людського мовлення. Одна з таких моделей — авторегресивна голосова модель, генеративна модель, яку застосовують у голосогенерації. У цій статті ми розглянемо, як працює авторегресивна модель і як вона використовується в синтезі мовлення.
Пояснення авторегресивної моделі
Авторегресивна модель — це статистична модель, яку часто використовують в обробці сигналів, розпізнаванні та синтезі мовлення. Вона є важливою складовою сучасних мовленнєвих технологій, особливо в системах перетворення тексту в мовлення (TTS). Щоб легше зрозуміти, як працює ця модель, наведімо аналогію: уявіть, що у вас є машина, яка вміє передбачати погоду. Щодня вона зважає на погоду попереднього дня (це й є «авторегресія»). Вона аналізує температуру, вологість, швидкість вітру й використовує ці параметри, щоб спрогнозувати погоду на завтра. Машина також враховує інші чинники, які можуть вплинути на погоду: пору року, місцезнаходження, типові погодні патерни (це й є «модель»). На основі всіх цих факторів машина прогнозує погоду на наступний день. Звісно, прогноз не завжди на 100% точний — прогнозування погоди відоме своєю складністю. Але що більше даних має машина, то точнішими стають її прогнози. Це і є приклад авторегресивної моделi. Основна ідея авторегресивної моделі проста: вона прогнозує наступне значення в часовому ряді на основі попередніх значень. Іншими словами, модель використовує лінійну комбінацію попередніх даних або коефіцієнтів, щоб спрогнозувати наступне значення в послідовності. Така здатність до передбачення робить авторегресивні моделі ідеальними для мовленнєвих технологій, де для створення природного мовлення потрібно передбачити наступний аудіосемпл з огляду на попередні. Авторегресивна модель має два основні компоненти: енкодер і декодер. Енкодер приймає вхідний сигнал, такий як спектрограма або послідовність фонем, і перетворює його на латентне представлення. Декодер далі бере це латентне представлення та генерує вихідний сигнал (наприклад, хвильову форму або спектрограму). Один із найпопулярніших типів авторегресивної моделі — WaveNet, який використовує розширену каузальну згортку (dilated causal convolution) для моделювання авторегресивного процесу. Це гаусова модель, яка здатна генерувати високоякісний звук, майже не відрізнити від людського мовлення. Ще одна важлива особливість авторегресивних моделей — їхня здатність умовно генерувати результат залежно від різних вхідних даних. Наприклад, за допомогою багатоголосового датасету можна навчити TTS-систему генерувати мовлення різними голосами. Для цього декодер під час навчання отримує інформацію про ідентичність мовця. Авторегресивні моделі можна навчати різними оптимізаційними алгоритмами, зокрема варіаційними автокодерами та рекурентними нейронними мережами (RNN). Важливо, щоб для навчання використовували якісні дані — це гарантує, що згенерована мова звучатиме природно й точно.
Застосування авторегресивної моделі для синтезу мовлення
Синтез мовлення — це процес машинного генерування людського голосу. Один із популярних підходів до синтезу мовлення — використання авторегресивної моделі. За цим підходом машина аналізує та передбачає акустичні характеристики мовлення, такі як висота, тривалість і гучність, за допомогою енкодера й декодера. Енкодер обробляє сирі мовленнєві дані — аудіохвилі або спектрограми — та перетворює їх на набір високорівневих ознак. Ці ознаки потім подаються в декодер, який створює послідовність акустичних елементів, що представляють бажане мовлення. Завдяки авторегресивності моделі декодер може прогнозувати кожну наступну акустичну ознаку на підставі попередньої активності, що дає змогу досягти природного звучання синтезованого голосу. Одна з найпопулярніших авторегресивних моделей для синтезу мовлення — WaveNet. WaveNet використовує згорткові нейронні мережі (CNN) для генерації акустичних ознак, які перетворюються на мовлення за допомогою вокодера. Модель навчається на великому наборі якісних мовних зразків, щоб вивчити патерни та взаємозв’язки між різними акустичними характеристиками. Навчені моделі, часто побудовані на архітектурі довгострокової короткочасної пам’яті (LSTM), можуть прискорити навчання авторегресивних голосових моделей і підвищити їхню продуктивність. Щоб покращити якість та реалістичність синтезованої мови, дослідники запропонували різні модифікації моделі WaveNet. Наприклад, FastSpeech — це комплексна модель автоматичного розпізнавання мовлення, яка зменшує затримки й суттєво пришвидшує синтез мовлення. Вона досягає цього завдяки використанню механізму attention, який напряму прогнозує тривалість і висоту кожної фонеми в мовній послідовності. Ще один напрям досліджень у сфері авторегресивного синтезу мовлення — конверсія голосу, де мета — перетворити мовлення однієї людини так, щоб воно звучало голосом іншої. Це досягається шляхом навчання моделі на вибірці мовних зразків як мовця-джерела, так і цільового мовця. У результаті отримуємо модель, здатну конвертувати мовлення джерела в голос цільової особи, при цьому зберігаючи мовний зміст і просодію оригінального мовлення. Критично важливою складовою авторегресивних голосових моделей є нейровокодер, який відповідає за генерування якісних мовних хвильових форм. Нейровокодер — ключовий елемент цього процесу, адже саме він перетворює вихід моделі на аудіохвилю, яку ми чуємо. Без нього згенероване мовлення звучатиме роботизовано й неприродно. Дослідження авторегресивних голосових моделей мають понад 2,3 мільярда цитувань, що свідчить про їхню вагу в галузі обробки мовлення. Насправді багато праць щодо авторегресивних голосових моделей були представлені на престижній конференції ICASSP, і в них основна увага приділяється покращенню акустичної моделі розпізнавання та синтезу мовлення. Чимало статей також опубліковано на arxiv.org і GitHub, де розглядаються різні алгоритми, архітектури та оптимізаційні техніки. Ефективність авторегресивних голосових моделей оцінюють за цілою низкою показників: середня оцінка якості (MOS), кількість помилок у словах (WER), спектральна дисторсія (SD).
Станьте просунутим користувачем AI-технологій для озвучення текстів разом із Speechify
Speechify — це сервіс TTS, який використовує штучний інтелект для створення якісного, природного закадрового мовлення для будь-яких текстів. Сервіс перетворює текст на мовлення за допомогою моделі глибокого навчання, натренованої на великій вибірці мовних зразків. Щоб скористатися Speechify, просто вставте або завантажте свій файл на платформу, оберіть потрібний голос і мову. Після цього Speechify згенерує якісний аудіофайл, який можна завантажити або надіслати іншим. Для свого TTS-сервісу Speechify використовує авторегресивну модель, завдяки чому синтезоване мовлення зберігає природний ритм живої мови. Із Speechify ви можете генерувати якісний звук в реальному часі й використовувати його для різних задач — від подкастів і відео до аудіокниг. Чого зволікати? Спробуйте Speechify сьогодні й відкрийте для себе новий спосіб створення преміального аудіо для своїх проєктів.
Поширені запитання
Що таке авторегресивна модель часових рядів?
Авторегресивна модель часових рядів — це статистична модель, яка прогнозує майбутні значення на основі попередніх значень.
Яка різниця між AR і ARMA?
ARMA — це більш узагальнена модель, яка містить і авторегресивні, і ковзно-середні компоненти, тоді як AR — це проста авторегресивна модель без частини ковзного середнього.
У чому різниця між часовими рядами та глибинним навчанням?
Аналіз часових рядів — це статистичний підхід до дослідження даних у часі. Натомість глибинне навчання — це підгалузь машинного навчання, у якій штучні нейронні мережі навчаються працювати з даними.
У чому різниця між авторегресивними й неавторегресивними моделями?
Авторегресивні моделі формують вихідні значення послідовно, спираючись на раніше згенеровані результати, тоді як неавторегресивні створюють їх паралельно, без урахування попередніх значень.

