Синтезът на реч, или изкуственото възпроизвеждане на човешкия глас, е изминал дълъг път през последните 70 години. Независимо дали използвате услуги за преобразуване на текст в говор, за да слушате книги, да учите или да редактирате собствените си текстове, няма съмнение, че тези услуги улесняват живота на хора от най-различни професии.
Тук ще разгледаме как работи преобразуването на текст в говор и как подпомагащите технологии са се променяли с времето.
Въведение
През 1700-те години руският професор Кристиан Кратценщайн създава акустични резонатори, които имитират човешкия глас. Две десетилетия по-късно VODER (Voice Operating Demonstrator) предизвиква сензация на Световното изложение в Ню Йорк, когато създателят Хоумър Дъдли показва на публиката как човешката реч може да бъде създадена по изкуствен начин. Устройството било трудно за управление – Дъдли контролирал основната честота с педали за крака.
В началото на 1800-те Чарлз Уитстоун разработва първия механичен синтезатор на реч. Това поставя началото на бързата еволюция на инструментите и технологиите за артикулационен синтез.
Трудно е да се определи точно какво прави една програма за преобразуване на текст в говор добра, но както с много неща в живота – разбираш го, щом го чуеш. Висококачествената програма за синтез на реч предлага естествено звучащи гласове с реалистична интонация и тембър.
Технологията за преобразуване на текст в говор може да помогне на хора с увредено зрение и други затруднения да получат нужната им информация, за да се справят в работата и да общуват с околните. Софтуерът позволява също така на ученици и на всички, които имат много за четене, да изслушват информацията си на глас, докато са в движение. Синтетичната реч позволява да се свърши повече за по-кратко време и може да бъде полезна в най-различни области – от създаване на видео игри до подпомагане на хора с особености в езиковата обработка.
1950-те и 60-те години
В края на 1950-те се създават първите компютърно базирани системи за синтез на реч. През 1961 г. физикът Джон Лари Кели Джуниър от Bell Labs използва компютър на IBM, за да синтезира реч. Неговият вокодер (синтезатор за запис на глас) възпроизвежда песента Daisy Bell.
По времето, когато Кели усъвършенства вокодера си, Артър К. Кларк – авторът на „2001: Космическа одисея“, използва демонстрацията на Кели в сценария на филма по книгата. В сцената компютърът HAL 9000 изпълнява песента Daisy Bell.
През 1966 г. на сцената се появява линейното предиктивно кодиране (LPC). Този тип кодиране на реч започва развитието си под ръководството на Фумитада Итакура и Шузо Сайто. Бишну С. Атaл и Манфред Р. Шрьодер също допринасят за усъвършенстването на линейното предиктивно кодиране.
1970-те години
През 1975 г. Итакура разработва метода на линейните спектрални двойки. Този метод за кодиране на реч с висока степен на компресия му помага да научи повече за анализа и синтеза на реч, откроявайки слабите места и как да бъдат подобрени.
През същата година излиза и MUSA. Тази самостоятелна система за синтез на реч използва алгоритъм, за да прочита италиански на глас. Версия, пусната три години по-късно, вече може и да пее на италиански.
През 70-те е разработен първият артикулационен синтезатор, базиран на човешкия гласов тракт. Първият известен синтезатор е създаден от Том Баер, Пол Мермелщайн и Филип Рубин в лабораториите Haskins. Триото използва информация от моделите на гласовия тракт, създадени в Bell Laboratories през 60-те и 70-те години.
През 1976 г. са представени машините за четене на Курцвайл за слепи. Макар и прекалено скъпи за масовия пазар, библиотеките често ги предоставят на хора с увредено зрение, за да слушат книги.
Линейното предиктивно кодиране се превръща в отправна точка за чиповете на синтезаторите. Чиповете с LPC синтез на Texas Instruments и играчките Speak & Spell от края на 1970-те използват технология за синтез на глас. Тези играчки са пример за синтез на човешки глас с точна интонация, която го отличава от типичните роботизирано звучащи синтетични гласове за времето. През това десетилетие много ръчни електронни устройства, които могат да синтезират реч, стават популярни, включително калкулаторът за слепи Speech+ на Telesensory Systems. Компютърът с шах Fidelity Voice Chess Challenger, който може да синтезира реч, излиза през 1979 г.
1980-те години
През 1980-те синтезът на реч навлиза и във видео игрите. През 1980 г. Stratovox (аркадна игра тип „стрелба“) излиза от Sun Electronics. Manbiki Shoujo (преведено на английски като "Shoplifting Girl") е първата компютърна игра с възможност за синтез на реч. През същата година излиза и електронната игра Milton – първата електронна игра на Milton Bradley Company със синтез на човешка реч.
През 1983 г. се появява самостоятелната акустико-механична машина за реч DECtalk. DECtalk разбира фонетичното записване на думи, като позволява персонализирано произношение на необичайни думи. Тези фонетични записи могат да включват и индикатор за тон, който DECtalk използва при изговаряне на фонетичните компоненти. Това позволява на DECtalk да пее.
В края на 80-те години Стив Джобс създава NeXT – система, разработена от Trillium Sound Research. Въпреки че NeXT не постига широк пазарен успех, Джобс в крайна сметка обединява програмата с Apple през 90-те години.
1990-те години
По-ранните версии на синтетичните TTS системи звучат осезаемо роботизирано, но това започва да се променя в края на 80-те и началото на 90-те. По-меките съгласни позволяват на изкуствените гласове да имат по-малко електронен оттенък и да звучат по-човешки. През 1990 г. Ан Сирдал от AT&T Bell Laboratories разработва женски синтетичен глас. През 90-те инженерите работят усилено гласовете да звучат все по-естествено.
През 1999 г. Microsoft пуска Narrator – екранен четец, който днес е включен във всяко копие на Microsoft Windows.
2000-те години
В началото на 2000-те синтезът на реч среща някои затруднения, тъй като разработчиците се опитват да създадат общи стандарти за синтетичната реч. Тъй като речта е силно индивидуална, трудно е хората по света да се обединят около правилното произношение на фонеми, дифони, интонация, тон, модели на възпроизвеждане и интонационни промени.
Качеството на аудиото при формантния синтез на реч също става по-сериозен въпрос през 90-те, когато инженери и изследователи забелязват, че лабораторното оборудване за възпроизвеждане на синтетичен говор е много по-напредничаво от това, с което разполагат обикновените потребители. Когато хората мислят за синтезирана реч, често си представят гласа на Стивън Хокинг – синтезатор, който предлага роботизиран глас с малко човешки оттенък.
През 2005 г. изследователите най-накрая постигат консенсус и започват да използват общ набор от речеви данни, което им позволява да работят по едни и същи основни принципи при създаването на системи за синтез с високо качество.
През 2007 г. изследване показва, че слушателите могат да разпознаят, когато човекът, който говори, се усмихва. Изследователите продължават да работят върху това как тази информация да се използва в софтуера за разпознаване и синтез на реч, за да звучи той по-естествено.
2010-те години
Днес продукти, които използват речеви технологии, са навсякъде – от Siri до Alexa. Електронните синтезатори на реч не само улесняват живота – правят го и по-забавен. Независимо дали използвате TTS система, за да слушате романи в движение, или приложения, които помагат при изучаването на чужд език – вероятно ежедневно използвате технология за преобразуване на текст в реч, за да държите мозъка си активен.
Бъдещето
В следващите години е вероятно технологиите за синтез на глас да се съсредоточат върху създаването на модел на мозъка, за да разберат по-добре как запаметяваме речева информация. Технологиите за реч ще се стремят също да разберат по-добре ролята на емоциите в речта и ще използват това, за да създадат AI гласове, които да са неразличими от истинските хора.
Последните тенденции в синтеза на глас: Speechify
Когато проследите развитието на технологиите от по-ранните синтезатори на реч, е удивително докъде е стигнала науката. Днес приложения като Speechify правят лесно превръщането на всеки текст в аудио файлове. Само с едно натискане на бутон (или докосване в приложение) Speechify може да взема уебсайтове, документи и изображения на текст и да ги преобразува в естествено звучаща реч. Библиотеката на Speechify се синхронизира на всичките ви устройства, което прави лесно да учите и работите в движение. Разгледайте приложението Speechify както в App Store на Apple, така и в Android Google Play.
Често задавани въпроси
Кой е изобретил преобразуването на текст в говор?
Преобразуването на текст в говор за английски език е изобретено от Норико Умеда. Системата е разработена в Електротехническата лаборатория в Япония през 1968 г.
Каква е целта на преобразуването на текст в говор?
Много хора използват технологията за преобразуване на текст в говор. За хора, които предпочитат да получават информацията си в аудио формат, TTS технологията може значително да улесни набавянето на нужната информация за работа или учене, без да се прекарват часове пред книга. Заети професионалисти също използват TTS, за да следят задълженията си, когато не могат да седят пред компютър. Много видове TTS първоначално са разработени за хора с увредено зрение, а днес TTS остава чудесен начин хората с проблеми със зрението да получават нужната им информация.
Как се синтезира реч?
Откъси от записана реч се съхраняват в база данни в различни единици. Софтуерът подготвя аудио файлове чрез избор на единици. Оттам се създава глас. Най-често, колкото по-голям е изходният обхват на програмата, толкова по-трудно ѝ е да осигури достатъчна яснота на гласа.

