საუბრის სინთეზი, ანუ ადამიანის ხმის ხელოვნური შექმნა, ბოლო 70 წლის განმავლობაში ძალიან წინ წავიდა. თუ იყენებთ ტექსტიდან ხმაზე სერვისებს წიგნების მოსასმენად, სასწავლად ან თქვენი ტექსტების გადასამოწმებლად, აშკარაა, რომ ამ ტექნოლოგიამ ბევრ პროფესიაში ცხოვრება საგრძნობლად გაამარტივა.
აქ მოვყვებით, როგორ მუშაობს ტექსტიდან ხმაზე ტექნოლოგია და როგორ შეიცვალა დამხმარე საშუალებები დროთა განმავლობაში.
შესავალი
1700-იანებში რუსმა პროფესორმა კრაწენშტეინმა შექმნა აკუსტიკური რეზონატორები, რომლებიც ადამიანის ხმის ბგერებს ბაძავდნენ. ორ ათწლეულში VODER-მა (Voice Operating Demonstrator) დიდი ყურადღება მიიპყრო ნიუ-იორკის მსოფლიო გამოფენაზე, როცა ჰომერ დადლიმ აჩვენა, როგორ შეიძლება ადამიანის ხმა ხელოვნურად შეიქმნას. მოწყობილობა რთულად სამართავი იყო – ძირითად ტონს ფეხის პედალებით აკონტროლებდნენ.
1800-იანების დასაწყისში ჩარლზ უიტსტოუნმა შექმნა პირველი მექანიკური ხმოვანი სინთეზატორი. ამან დააჩქარა არტიკულაციური სინთეზის ტექნოლოგიების სწრაფი განვითარება.
კარგი ტექსტიდან ხმაზე პროგრამის ამოცნობა იოლი არაა, მაგრამ, როგორც სხვა ყველაფერში, როცა მოუსმენთ, თავად მიხვდებით. მაღალხარისხოვანი პროგრამა გვთავაზობს ბუნებრივ ხმებს რეალისტური ინტონაციითა და ტონით.
ტექსტიდან ხმაზე ტექნოლოგია ეხმარება მხედველობის დარღვევის ან სხვა საჭიროებების მქონე ადამიანებს მიიღონ მათთვის მნიშვნელოვანი ინფორმაცია სამუშაოსა და კომუნიკაციისთვის. პროგრამა ასევე ამარტივებს სწავლას სტუდენტებისა და დატვირთული ადამიანებისთვის, რომლებსაც მოსწონთ გზაში, სიარულისას მოუსმინონ მასალას. სინთეზური ხმა ამარტივებს ყოველდღიურ საქმიანობას და მრავალ სფეროში გამოდის საჭიროა — ვიდეოთამაშებიდან ენით სხვადასხვა ადამიანების დაახლოებამდე.
1950-60-იანი წლები
1950-იანების ბოლოს შეიქმნა პირველი ხმოვანი სინთეზის სისტემები, რომლებიც კომპიუტერზე მუშაობდა. 1961 წელს ფიზიკოსმა ჯონ ლარი კელიმ Bell Labs-ში IBM კომპიუტერი გამოიყენა ბგერების სინთეზისთვის. მისმა ვოკოდერმა (ხმოვანმა სინთეზატორმა) კვლავღერა სიმღერა Daisy Bell.
სანამ კელი სრულყოფდა თავის ვოკოდერს, არტურ კლარკმა, „2001: კოსმოსური ოდისეის“ ავტორმა, კელის დემონსტრაცია სცენარისთვის გამოიყენა. ამ სცენაში HAL 9000 კომპიუტერი მღერის Daisy Bell-ს.
1966 წელს გამოჩნდა ხაზოვანი პროგნოზული კოდირება – საუბრის კოდირების ფორმა, რომელიც ფუმიტადა იტაკურამ და შუზო საიტომ შექმნეს. მის დახვეწაში ბიშნუ ასთალმა და მანფრედ შრედერმაც მიიღეს მონაწილეობა.
1970-იანი წლები
1975 წელს იტაკურამ შექმნა ხაზოვანი სპექტრული წყვილების მეთოდი. ამ მაღალკომპრესიულმა კოდირებამ ხმოვანი ანალიზისა და სინთეზის ხარისხი მნიშვნელოვნად გააუმჯობესა.
იმავე წელს შეიქმნა MUSA — დამოუკიდებელი საუბრის სინთეზის სისტემა, რომელსაც შეეძლო ალგორითმით იტალიური ტექსტის ხმამაღლა წაკითხვა. სამი წლის შემდეგ გამოსულ ვერსიას უკვე იტალიურადაც შეეძლო სიმღერა.
70-იანებში შეიქმნა პირველი არტიკულაციური სინთეზატორიც, რომელიც ადამიანის ხმის ტრაქტის მოდელზე იყო აგებული. ეს სინთეზატორი ტომ ბაერმა, პოლ მერმელშტეინმა და ფილიპ რუბინმა ჰასკინსის ლაბორატორიებში მოამზადეს Bell Labs-ის მოდელებზე დაყრდნობით.
1976 წელს გამოჩნდა Kurzweil-ის საკითხავი აპარატები უსინათლოთათვის. მიუხედავად მაღალი ფასისა, ისინი ბიბლიოთეკებში ხვდებოდა, რათა მხედველობის შეზღუდვის მქონეებს შეძლებოდათ წიგნების მოსმენა.
ხაზოვანი პროგნოზული კოდირება საფუძველი გახდა სინთეზატორის ჩიპებისთვის. Texas Instruments-ის LPC სინთეზატორული ჩიპები და Speak & Spell სათამაშოებიც ამ ტექნოლოგიას ეყრდნობოდა. ეს სათამაშოები უკვე ადამიანური ინტონაციით ხასიათდებოდა, განსხვავებით იმდროინდელი სტანდარტით რობოტისმაგვარი ხმებისგან. ხმოვანი ფუნქცია ბევრ პორტატულ მოწყობილობაშიც გამოჩნდა, მათ შორის Telesensory Systems-ის Speech+ უსინათლოთა კალკულატორში და Voice Chess Challenger-სათამაშოში (1979).
1980-იანი წლები
1980-იანებში ხმა ვიდეოთამაშებშიც გამოჩნდა. Stratovox (არსადული სროლის თამაში) Sun Electronics-მა 1980 წელს გამოუშვა. Manbiki Shoujo (ინგლისურად Shoplifting Girl) იყო პირველი პერსონალური კომპიუტერის თამაში ხმოვანი სინთეზით. Milton-ი კი Milton Bradley-ს პირველი სათამაშო იყო, რომელსაც ადამიანის ხმის სინთეზი შეეძლო.
1983 წელს გამოვიდა დამოუკიდებელი აკუსტიკ-მექანიკური მოწყობილობა DECtalk. მას ფონეტიკური დამწელობა შეეძლო ამოეცნო და სიტყვების ჟღერადობა მოერგო. ტონალური ნიშნების დამატებაც შეიძლებოდა, რაც DECtalk-ს სიმღერასაც აძლევდა.
80-იანების ბოლოს სტივ ჯობსმა Trillium Sound Research-სთან ერთად შექმნა NeXT სისტემა. მიუხედავად იმისა, რომ NeXT ფართოდ არ გავრცელდა, ჯობსმა პროგრამა შემდეგ Apple-სთვის მოარგო 90-იანებში.
1990-იანი წლები
ადრეული ტექსტიდან ხმაზე სისტემები ძალიან რობოტულად ჟღერდა, მაგრამ 80-იანების ბოლოს და 90-იანების დასაწყისში ვითარება შეიცვალა. რბილი თანხმოვნები აპარატების ხმას გაცილებით ადამიანურს ხდიდა. 1990 წელს ან სირთალმა AT&T Bell Labs-ში ქალური ხმა შექმნა მსახიობზე დაყრდნობით. 90-იანებში ინჟინრები უკვე აქტიურად ცდილობდნენ ხმების მაქსიმალურად ბუნებრივად წარმოებას.
1999 წელს Microsoft-მა გამოუშვა Narrator – ეკრანის წამკითხველი პროგრამა, რომელიც Windows-ის ყველა ვერსიაშია ჩაშენებული.
2000-იანი წლები
2000-იანებში ხმოვანი სინთეზის განვითარება ნაწილობრივ გაიჭედა, რადგან დეველოპერები საერთო სტანდარტებზე ვერ თანხმდებოდნენ. ხმა ძალიან ინდივიდუალურია – რთულია, მსოფლიოში ყველასთვის მისაღები ერთიანი წესები ჩამოაყალიბო სწორი წარმოთქმის, ინტონაციის, ტონისა და ბგერების დასაკოორდინებლად.
ფორმანტული სინთეზის ხარისხი 90-იანებშიც აქტუალური თემა იყო, რადგან ლაბორატორიაში გამოყენებული სისტემები ბევრად უკეთ ჟღერდა, ვიდრე მომხმარებლის აპარატურა. ბევრს ახსენდება სტივენ ჰოკინგის ხმოვანი სინთეზატორი – რობოტული ხმა, ოდნავ ადამიანური ტონით.
2005 წელს მკვლევრებმა შეთანხმეებამდე მიაღწიეს და ერთიან აუდიო ბაზას დაუყრდნენ, რამაც მაღალი დონის სისტემების შექმნა საგრძნობლად გააიოლა.
2007 წლის კვლევამ აჩვენა, რომ მსმენელი მარტივად ცნობდა, ყვებოდა თუ არა მოსაუბრე ღიმილით. მეცნიერები ცდილობენ ამ ეფექტის ჩაშენებას უფრო ბუნებრივად მოსაუბრე ტექნოლოგიებში.
2010-იანი წლები
დღეს ხმის სინთეზის პროდუქტები ყველგანაა – Siri-დან Alexa-მდე. ელექტრონული სინთეზატორები არა მხოლოდ ამარტივებს ყოველდღიურობას – ისინი მას უფრო საინტერესოსაც ხდიან. იყენებთ თუ არა TTS სისტემას რომ გზაში მოისმინოთ რომანი, ან სარგებლობთ თუ არა უცხო ენის სასlern აპით, დიდი ალბათობით ყოველდღე იყენებთ ტექსტიდან ხმაზე ტექნოლოგიას.
მომავალი
მოსალოდნელია, რომ უახლოეს წლებში ხმოვანი სინთეზი ტვინის მუშაობის მოდელირებაზე გადაინაცვლებს, რათა უკეთ გავიგოთ, როგორ ამუშავებს ტვინი ხმას. საუბრის ტექნოლოგია ასევე შეისწავლის ემოციების გავლენას და გამოიყენებს მას AI ხმების შესაქმნელად, რომლებიც რეალურ ადამიანურ ხმას ძლივს გამოირჩევა.
ახალი ხმის სინთეზის ტექნოლოგია: Speechify
თუ თვალს ავადევნებთ, როგორ განვითარდა ხმის სინთეზის ტექნოლოგია, დღეს აპები, მაგალითად Speechify საშუალებას გაძლევთ ტექსტი მარტივად გადააქციოთ აუდიოდ. ერთი ღილაკის დაჭერით Speechify ვებსაიტებს, დოკუმენტებსა და ტექსტის ფოტოებს ბუნებრივად მოსმენად ხმად აქცევს. თქვენი ბიბლიოთეკა ყველა მოწყობილობას შორის სინქრონდება, რომ სწავლა და მუშაობა ყველგან მარტივი იყოს. სცადეთ Speechify როგორც Apple-ის App Store-ში, ასევე Android-ის Google Play-ზე.
ხშირად დასმული კითხვები
ვინ გამოიგონა ტექსტიდან ხმაზე?
ინგლისურ ტექსტიდან ხმაზე ტექნოლოგია ნორიკო უმედამ გამოიგონა იაპონიის ელექტროტექნიკის ლაბორატორიაში 1968 წელს.
რა მიზანი აქვს ტექსტიდან ხმაზე ტექნოლოგიას?
ტექსტიდან ხმაზე ტექნოლოგიას ბევრი ადამიანი იყენებს. მათთვის, ვისაც აუდიო ფორმატი ურჩევნია, TTS ტექნოლოგია ამარტივებს საჭირო ინფორმაციის მიღებას, წიგნთან საათობით ჯდომის გარეშე. დატვირთულ პროფესიონალებსაც შეუძლიათ ისარგებლონ TTS ტექნოლოგიით, როცა კომპიუტერთან ჯდომა ვერ ხერხდება. ბევრი პროგრამა თავდაპირველად მხედველობის დარღვევის მქონეთათვის შეიქმნა, და TTS კვლავ შესანიშნავი გზაა ინფორმაციის მისაღებად მათთვის, ვისაც წაკითხვა უჭირს.
როგორ ხდება ხმოვანი სინთეზი?
ჩაწერილი ხმების ფრაგმენტები სხვადასხვა სახით ინახება ბაზაში. პროგრამა არჩევს საჭირო ერთეულებს და ქმნის აუდიოფაილებს, რის შედეგადაც წარმოიქმნება ხმა. რაც უფრო მრავალფეროვანია პროგრამის გამომავალი, მით უფრო ძნელია ხმოვანი სიზუსტის შენარჩუნება.

