Синтез мовлення, або штучне відтворення людського голосу, пройшов довгий шлях за останні 70 років. Незалежно від того, чи ви користуєтесь сервісами перетворення тексту на мовлення для прослуховування книг, навчання чи редагування власних текстів, немає сумнівів, що ці рішення суттєво полегшили життя людям у різних професіях.
Далі ми розглянемо, як працює перетворення тексту на мовлення і як ця допоміжна технологія змінювалася з часом.
Вступ
У 1700-х роках російський професор Крістіан Краценштейн створив акустичні резонатори, які імітували звук людського голосу. Через два десятиліття VODER (Voice Operating Demonstrator) став сенсацією на Всесвітній виставці в Нью-Йорку, коли винахідник Гомер Дадлі продемонстрував, як людське мовлення можна відтворити штучними засобами. Керувати пристроєм було складно — Дадлі мав педалями ніг змінювати основну частоту.
На початку 1800-х Чарльз Вітстон розробив перший механічний синтезатор мовлення. Це дало потужний поштовх до стрімкого розвитку технологій артикуляційного синтезу.
Визначити, що робить програму перетворення тексту на мовлення якісною, не завжди просто, але, як і багато чого в житті, ви впізнаєте це на слух. Якісна програма TTS (Text-to-Speech) пропонує природні голоси з живою інтонацією та тембром.
Технологія перетворення тексту на мовлення допомагає людям із порушеннями зору та іншими інвалідностями отримувати необхідну інформацію для успішної роботи й спілкування. Програмне забезпечення дозволяє студентам та іншим користувачам із великими обсягами читання слухати текст у вигляді мовлення під час пересування. Синтетична мова допомагає зробити більше за коротший час і корисна в багатьох сферах — від створення відеоігор до підтримки людей із мовленнєвими відмінностями.
1950-ті та 60-ті
Наприкінці 1950-х були створені перші комп’ютерні системи синтезу мовлення. У 1961 році фізик Джон Ларрі Келлі-молодший із Bell Labs використав комп’ютер IBM для синтезу мовлення. Його вокодер відтворив пісню Daisy Bell.
У той час, коли Келлі удосконалював свій вокодер, Артур К. Кларк, автор «2001: Космічна одіссея», використав його демонстрацію у сценарії до книги. У цій сцені комп'ютер HAL 9000 співає Daisy Bell.
У 1966 році з’явилося лінійне предиктивне кодування. Цю форму кодування мовлення розробили під керівництвом Фумітади Ітакури та Шузо Сайто. Бішну С. Атал та Манфред Р. Шредер також зробили вагомий внесок у розвиток цієї технології.
1970-ті
У 1975 році Ітакура розробив метод лінійних спектральних пар. Цей метод високоефективного кодування мовлення допоміг краще аналізувати мовлення, визначати слабкі місця систем і вдосконалювати їх.
Того ж року була випущена система MUSA — автономна система синтезу мовлення, яка використовувала алгоритм для читання італійською вголос. Версія, що з'явилася через три роки, вже вміла співати італійською.
У 70-х роках був розроблений перший артикуляційний синтезатор, побудований на основі моделі людського голосового тракту. Його створили Том Баер, Пол Мермельштейн та Філіп Рубін у Haskins Laboratories, використовуючи дані з моделей Bell Laboratories 60-х і 70-х років.
У 1976 році були представлені Читальні машини Керцвейла для людей із вадами зору. Хоча ці пристрої були надто дорогими для широкого загалу, бібліотеки часто надавали їх людям із порушеннями зору, щоб вони могли слухати книги.
Лінійне предиктивне кодування стало основою для синтезаторних чипів. LPC-чипи від Texas Instruments та іграшки Speak & Spell з кінця 1970-х використовували цю технологію. Вони вирізнялися точним відтворенням інтонацій, що відрізняло їх від характерних роботоподібних синтезованих голосів того часу. Протягом цього десятиліття стали популярними багато портативних електронних пристроїв із функцією синтезу мовлення, зокрема калькулятор Speech+ від Telesensory Systems для незрячих. У 1979 році було випущено Fidelity Voice Chess Challenger — шаховий комп’ютер із синтезом мовлення.
1980-ті
У 1980-х синтез мовлення вийшов у світ відеоігор. У 1980 році Sun Electronics випустила Stratovox — аркадну гру-шутер із синтезом мовлення. Manbiki Shoujo (у перекладі — «Дівчина, що краде») стала першою комп’ютерною грою з функцією синтезу мовлення. Того ж року вийшла електронна гра Milton — перша гра компанії Milton Bradley із синтезованим людським голосом.
У 1983 році з’явився автономний акустико-механічний синтезатор DECtalk. DECtalk розпізнавав фонетичне написання слів, дозволяючи налаштовувати вимову незвичних слів. Фонетичний запис також містив індикатор тону, який DECtalk використовував під час озвучування і навіть давав змогу співати.
Наприкінці 80-х Стів Джобс створив NeXT — систему, розроблену Trillium Sound Research. Хоча NeXT не набув широкого поширення, Джобс зрештою об’єднав цю програму з Apple у 90-х роках.
1990-ті
Перші версії синтезованого мовлення були відверто роботоподібними, але це почало змінюватися наприкінці 80-х — на початку 90-х. М'якші приголосні допомогли машинам позбутися «електронного» відтінку і зробили звучання більш природним. У 1990 році Енн Сердал із Bell Labs AT&T розробила перший жіночий синтезований голос. Інженери впродовж 90-х років продовжували працювати над «олюдненням» голосів.
У 1999 році Microsoft випустила Narrator — програму-екранний читач, яка зараз входить до складу кожної копії Windows.
2000-ті
У 2000-х синтез мовлення зіткнувся з новими викликами — розробники працювали над створенням спільних стандартів для синтезованого мовлення. Оскільки мовлення дуже індивідуальне, людям у всьому світі було непросто домовитися щодо вимови фонем, дифонів, інтонацій, тону, ритму й відтінків мовлення.
Якість звучання формантного синтезу також стала важливою темою ще у 90-х, коли інженери помітили, що якість систем для відтворення синтезованої мови в лабораторії значно перевищує можливості обладнання пересічного користувача. Для багатьох людей синтез мовлення досі асоціюється з голосовим синтезатором Стівена Гокінга, який створював роботоподібний голос із мінімальними людськими відтінками.
У 2005 році дослідники нарешті досягли певного консенсусу й почали використовувати спільний мовний датасет, що дозволило розробляти високорівневі системи синтезу мовлення за єдиними принципами.
У 2007 році було проведено дослідження, яке показало, що слухачі можуть визначити, чи посміхається людина, яка говорить. Науковці й надалі досліджують, як використати цю інформацію для створення ПЗ для розпізнавання й синтезу мовлення, яке звучатиме ще природніше.
2010-ті
Сьогодні продукти синтезу мовлення, які використовують мовні сигнали, можна знайти всюди — від Siri до Alexa. Електронні синтезатори мови не лише полегшують життя — вони також роблять його цікавішим. Чи використовуєте ви TTS-систему для прослуховування романів на ходу, чи застосовуєте додатки для вивчення іноземних мов, швидше за все, ви щодня користуєтеся технологією перетворення тексту на мовлення, щоб активізувати свої нейронні зв’язки.
Майбутнє
У найближчі роки технологія синтезу голосу, ймовірно, зосередиться на моделюванні роботи мозку, щоб краще зрозуміти, як ми зберігаємо мовленнєві дані. Технології мовлення також розвиватимуться в напрямку глибшого розуміння ролі емоцій у мовленні й застосування цих знань для створення AI-голосів, які буде важко відрізнити від справжніх людських.
Останнє у технологіях синтезу мовлення: Speechify
Вражає, як далеко просунулася наука від перших технологій синтезу мовлення. Сьогодні такі додатки, як Speechify, спрощують перетворення практично будь-якого тексту на аудіо. Лише одним натисканням кнопки (або дотиком в додатку) Speechify може озвучити вебсайти, документи та зображення з текстом природним мовленням. Бібліотека Speechify синхронізується на всіх ваших пристроях, тож ви легко можете продовжувати навчання й роботу на ходу. Ознайомтеся з додатком Speechify у магазинах App Store від Apple та Android Google Play.
Поширені запитання
Хто винайшов перетворення тексту на мовлення?
Технологію перетворення тексту на мовлення для англійської мови винайшла Норіко Умеда. Систему було розроблено в Електротехнічній лабораторії Японії у 1968 році.
Яка мета перетворення тексту на мовлення?
Багато людей користуються технологією перетворення тексту на мовлення. Тим, хто віддає перевагу отриманню інформації у звуковому форматі, технологія TTS дозволяє легко отримати потрібні дані для навчання або роботи, не витрачаючи години на читання книжок. Зайняті професіонали також використовують TTS, щоб залишатися в курсі справ, коли немає змоги сидіти перед екраном комп’ютера. Багато різновидів технологій TTS спочатку розроблялися для людей із порушеннями зору, і сьогодні TTS усе ще є чудовим способом отримання інформації для тих, хто має труднощі із зором.
Як синтезується мова?
Фрагменти записаної мови зберігаються в базі даних у різних одиницях. Програмне забезпечення формує аудіофайли, добираючи потрібні одиниці, з яких створюється голос. Чим ширший діапазон вихідних даних програми, тим складніше забезпечити для користувача чітке, виразне звучання.

