Решенията за преобразуване на текст в говор (TTS) се превърнаха в незаменима асистивна технология, която помага на безброй потребители на компютри да взаимодействат с писаното слово – било то за удоволствие, учене или работа.
Както можете да се досетите, пазарът за TTS е доста наситен, с десетки приложения и разширения за браузъри, от които да избирате. Повечето от тях са доста полезни, значително повишават продуктивността и предлагат по-удобно изживяване за потребителя. Днес ще се фокусираме върху TTS решението на Microsoft — Azure.
Какво представлява преобразуването на текст в говор от Microsoft?
Какво тогава е Azure? За да отговорим на този въпрос, можем да зададем друг: Искате ли да имате възможност да създавате съдържание с гласови записи, звучащи напълно естествено, или да слушате любимите си страници, прочетени вместо вас, с множество настройки като скорост на говор, интонация, произношение и други? Microsoft Azure ви позволява всичко това — плюс още много.
Azure е облачна платформа, пълна с възможности. В допълнение към когнитивните услуги на Azure, които предоставят страхотни решения за преобразуване на текст в говор и превръщане на говор в текст, може да се възползвате и от облачното съхранение и анализите на Azure, за да повишите още повече продуктивността си, без да е нужно да познавате сложното машинно обучение.
Благодарение на съвместимостта с различни отворени решения, Azure е изключително гъвкав. Добавянето на гласови записи в персонализирани приложения и даването на възможност на вашата целева аудитория да се възползва от дълбокото машинно обучение никога не е било по-лесно, особено с над сто езика и езикови варианти, достъпни чрез Azure.
Как да използвате приложението за преобразуване на текст в говор на Microsoft на вашия iPhone или компютър
Настройването на Microsoft Azure на вашето устройство е изключително лесно — трябва само да се регистрирате с няколко клика в официалния сайт на Azure. Ако пък използвате само програми като Outlook, Word, PowerPoint, Docs и OneNote, няма нужда да теглите нищо, защото тези програми вече имат вградена функция за синтез на говор, наречена Speak.
Макар и да не е най-качествената услуга за синтез на реч, Speak върши чудесна работа, когато ви трябва нещо набързо, а и е много лесен за настройка:
- Кликнете върху опцията Персонализиране на лентата с инструменти , след което изберете
- Изберете опцията Още команди
- Кликнете върху Всички команди
- Намерете Speak, кликнете върху него и след това върху Добави
Алтернативи на приложението на Microsoft за преобразуване на текст в говор
Както споменахме в началото, четците на текст са многобройни — от професионални приложения с главоломно високи цени до полузавършени SDK решения за разпознаване на говор в GitHub. Ако TTS асистентът на Microsoft не ви допада или просто търсите разнообразие, предлагаме няколко алтернативи, които със сигурност ще привлекат вниманието ви.
Speechify
На първо място е Speechify — най-високо оцененият TTS инструмент, който може да превърне почти всичко в аудио файл. Работи с всички приложения на Microsoft, а моделите за синтез на реч са впечатляващи. В съчетание с възможности за API това е гъвкаво решение, което ще покрие всички ваши нужди и сценарии.
Amazon Polly
На второ място е Amazon Polly — страхотно решение, известно със своите естествени гласове и многобройни стилове на говор. Поддържа множество езици, а нейната невронна TTS технология предлага богати възможности за персонализация, за да добавите характер към всяко възпроизвеждане.
Google Cloud Text to Speech
На трето място е Google Cloud Text to Speech. Разбира се, там, където има технологичен напредък, Google е налице, а TTS сферата не прави изключение. Решението на Google работи със SSML (markup език за синтез на реч) и се таксува на символ, така че е едновременно удобно и изгодно, ако работите по еднократен проект.
IBM Watson Text to Speech
IBM Watson е на четвърто място. Това, което го отличава от конкуренцията, е гъвкавостта му в корпоративна среда. Watson може да се използва и като виртуален асистент, и като инструмент за обслужване на клиенти, и като TTS решение. Освен това е изключително достъпен, така че трудно ще намерите по-добра оферта, ако търсите нещо гъвкаво.
Readspeaker
На пето място е един от ветераните — Readspeaker. С близо четвърт век опит Readspeaker владее TTS до съвършенство. Поддържа над сто езика и е идеален за студиа и електронно обучение, защото работи както онлайн, така и офлайн.
NaturalReader
Шесто място заема NaturalReader. Това приложение се справя отлично с генерирането на синтезирана реч в реално време и работи с почти всички приложения, които използвате на компютъра си. Това, което го отличава обаче, е т.нар. режим четене, при който текстът ви се изчиства от ненужни елементи като реклами.
VoiceDream Reader
На седмо място е VoiceDream Reader — последната ни алтернатива на Microsoft Azure за днес. За съжаление, макар да върши работа за по-прости задачи, много потребители се оплакват от недостатъчна достъпност и слаби възможности за синхронизация. Ако обаче ви трябва бързо решение и не държите на най-усъвършенствана невронна TTS технология, VoiceDream ще се справи прилично.
Често задавани въпроси
Безплатна ли е TTS функцията на Windows 10?
Има много TTS решения за Windows 10. Част от тях са безплатни, а други — не. Вградената опция Speak, която идва с Windows 10 и работи в приложения като Outlook и Word, е безплатна, но по-усъвършенстваните решения с персонализирани невронни гласове и други функции, като Microsoft Azure, изискват абонамент.
Кой е най-реалистичният глас в TTS?
Най-реалистичните TTS гласове се срещат най-често при по-напреднали инструменти като Amazon Polly и Speechify. Степента на реализъм зависи от езика, модела на говора и избраните от вас параметри.
Каква е разликата между преобразуване на текст в говор и разпознаване на глас?
Макар много TTS програми да предлагат както преобразуване на текст в говор, така и разпознаване на глас, двете не бива да се объркват. Преобразуването на текст в говор превръща текстовия вход в аудио, като ви позволява да общувате с текста, докато се занимавате с други задачи. Разпознаването на глас анализира човешката реч — било за тълкуване, било за идентификация на говорещия.

