Sintesis pertuturan, atau penghasilan suara manusia secara buatan, telah melalui pelbagai kemajuan dalam 70 tahun yang lalu. Sama ada anda menggunakan teknologi teks ke pertuturan untuk mendengar buku, belajar, atau menyemak hasil penulisan sendiri, tidak dapat dinafikan bahawa perkhidmatan teks ke pertuturan memudahkan hidup ramai orang dalam pelbagai bidang.
Di sini, kami akan melihat bagaimana pemprosesan teks ke pertuturan berfungsi, dan bagaimana teknologi bantuan ini telah berubah mengikut masa.
Pengenalan
Pada tahun 1700an, profesor Rusia Christian Kratzenstein mencipta resonator akustik yang meniru suara manusia. Dua dekad kemudian, VODER (Voice Operating Demonstrator) mencuri tumpuan di Pameran Dunia New York apabila penciptanya Homer Dudley menunjukkan kepada orang ramai bagaimana percakapan manusia boleh dihasilkan secara buatan. Peranti ini sukar digunakan–Dudley perlu mengawal frekuensi asas menggunakan pedal kaki.
Pada awal 1800an, Charles Wheatstone membangunkan synthesizer pertuturan mekanikal pertama. Inilah yang mencetuskan evolusi pantas alat dan teknologi sintesis artikulasi.
Agak sukar menentukan apa yang membuatkan sesuatu program teks ke pertuturan itu baik, tetapi seperti banyak perkara lain dalam hidup, anda akan tahu bila anda mendengarnya. Program teks ke pertuturan berkualiti tinggi menawarkan suara yang semula jadi dengan intonasi dan nada seperti kehidupan sebenar.
Teknologi teks ke pertuturan dapat membantu mereka yang kurang upaya penglihatan dan menghidap masalah lain untuk mendapatkan maklumat penting di tempat kerja dan berkomunikasi dengan orang lain. Perisian ini juga membolehkan pelajar serta sesiapa yang perlu membaca banyak bahan untuk mendengar maklumat melalui suara manusia ketika dalam perjalanan. Suara sintetik membolehkan pengguna lebih produktif dalam masa singkat, dan berguna dalam pelbagai situasi, daripada pembangunan permainan video hinggalah membantu mereka yang mengalami perbezaan dalam pemprosesan bahasa.
1950an dan 60an
Pada penghujung 1950-an, sistem sintesis pertuturan pertama berasaskan komputer dicipta. Pada tahun 1961, John Larry Kelly Jr., seorang ahli fizik di Bell Labs, menggunakan komputer IBM untuk mensintesis pertuturan. Vocoder beliau menghasilkan semula lagu Daisy Bell.
Ketika Kelly menambah baik vocodernya, Arthur C. Clarke, penulis 2001: A Space Odyssey, menggunakan demonstrasi Kelly sebagai inspirasi untuk skrip bukunya. Dalam babak itu, komputer HAL 9000 menyanyikan Daisy Bell.
Pada tahun 1966, pengekodan ramalan linear mula diperkenalkan. Bentuk pengkodan pertuturan ini mula dibangunkan oleh Fumitada Itakura dan Shuzo Saito. Bishnu S. Atal dan Manfred R. Schroeder juga menyumbang kepada pembangunan pengekodan ramalan linear.
1970an
Pada 1975, kaedah sepasang spektrum talian telah dibangunkan oleh Itakura. Kaedah pemampatan tinggi ini membantu Itakura memahami dengan lebih mendalam tentang analisis dan sintesis pertuturan, mengenal pasti kelemahan dan memperbaikinya.
Pada tahun yang sama, MUSA dilancarkan. Sistem sintesis pertuturan ini menggunakan algoritma untuk membaca teks bahasa Itali secara lantang. Versi tiga tahun kemudian malah mampu menyanyi dalam bahasa Itali.
Pada 70an, penyintesis artikulasi pertama dibangunkan berasaskan saluran vokal manusia. Penyintesis pertama ini dibangunkan oleh Tom Baer, Paul Mermelstein dan Philip Rubin di Haskins Laboratories. Mereka menggunakan maklumat daripada model saluran vokal yang dicipta di Bell Laboratories pada 60an dan 70an.
Pada 1976, Mesin Pembaca Kurzweil untuk Orang Buta telah diperkenalkan. Walaupun terlalu mahal untuk orang awam, perpustakaan sering menyediakannya kepada mereka yang kurang upaya penglihatan untuk mendengar buku.
Pengekodan ramalan linear menjadi asas kepada cip penyintesis. Cip Pertuturan LPC Texas Instruments dan permainan Speak & Spell lewat 1970an kedua-duanya menggunakan cip penyintesis. Permainan ini menunjukkan sintesis suara manusia dengan intonasi yang tepat, membezakan suara tersebut daripada suara sintetik robotik yang biasa. Banyak peralatan elektronik mudah alih dengan keupayaan mensintesis suara menjadi popular pada dekad ini, antaranya kalkulator Speech+ Telesensory Systems untuk orang buta. Fidelity Voice Chess Challenger, komputer catur yang mampu mensintesis ucapan, dikeluarkan pada 1979.
1980an
Pada 1980an, sintesis pertuturan mula mempengaruhi dunia permainan video. Tahun 1980 menyaksikan keluaran Stratovox (permainan arked menembak) oleh Sun Electronics. Manbiki Shoujo (dalam bahasa Inggeris: Shoplifting Girl) merupakan permainan komputer peribadi pertama dengan keupayaan sintesis suara. Permainan elektronik Milton turut dilancarkan pada 1980–produk elektronik pertama oleh Milton Bradley Company yang mampu mensintesis suara manusia.
Pada 1983, mesin akustik-mekanik tunggal bernama DECtalk muncul. DECtalk memahami ejaan fonetik, membenarkan sebutan khas untuk perkataan luar biasa. Ejaan fonetik ini boleh mengandungi penanda nada yang digunakan DECtalk untuk sebutan. DECtalk juga mampu menyanyi menggunakan fungsi ini.
Pada penghujung 80an, Steve Jobs membangunkan NeXT, sistem oleh Trillium Sound Research. Walaupun NeXT tidak berjaya, Jobs kemudian menggabungkan program itu dengan Apple pada 90an.
1990an
Versi awal sistem sintesis teks ke pertuturan kedengaran sangat robotik, tetapi perkara itu mulai berubah pada lewat 80an dan awal 90an. Konsonan yang lebih lembut menjadikan bunyi mesin lebih semula jadi. Pada 1990, Ann Syrdal di AT&T Bell Laboratories membangunkan suara synthesizer wanita. Sepanjang 90an, jurutera berusaha menjadikan suara lebih semula jadi.
Pada 1999, Microsoft memperkenalkan Narrator, penyelesai pembaca skrin yang kini terdapat dalam setiap salinan Microsoft Windows.
2000an
Sintesis pertuturan melalui pelbagai cabaran pada 2000an apabila pembangun berusaha mencipta piawaian bersama untuk suara sintetik. Memandangkan pertuturan sangat unik, sukar untuk semua mencapai persetujuan tentang sebutan, fonem, intonasi, corak dan lenggok suara.
Kualiti bunyi sintesis formant juga menjadi isu utama pada 90an, apabila jurutera dan penyelidik mendapati sistem di makmal jauh lebih maju berbanding peralatan pengguna. Ramai mengaitkan sintesis suara dengan suara robotik mesin Stephen Hawking yang kurang intonasi manusia.
Pada 2005, penyelidik akhirnya mencapai persetujuan dan mula menggunakan set data pertuturan bersama, membolehkan mereka membina sistem sintesis suara tahap tinggi daripada asas yang sama.
Pada 2007, satu kajian menunjukkan pendengar boleh mengenal pasti sama ada seseorang sedang bercakap sambil tersenyum. Penyelidik terus berusaha menggunakan maklumat ini untuk membina perisian pengecaman dan sintesis pertuturan yang lebih semula jadi.
2010an
Kini, produk sintesis pertuturan berasaskan isyarat suara boleh ditemui di mana-mana, daripada Siri hinggalah Alexa. Penyintesis suara elektronik bukan sahaja memudahkan hidup—ia juga menjadikan hidup lebih menyeronokkan. Sama ada anda menggunakan sistem TTS untuk mendengar novel semasa bergerak, atau aplikasi pembelajaran bahasa asing yang lebih mudah, besar kemungkinan anda menggunakan teknologi teks ke pertuturan setiap hari untuk mengaktifkan rangkaian neural anda.
Masa depan
Pada masa akan datang, teknologi sintesis suara dijangka memfokuskan pada penciptaan model otak untuk memahami cara data pertuturan disimpan dalam minda manusia. Teknologi suara juga akan mengkaji peranan emosi dalam pertuturan, dan menggunakan maklumat ini untuk membina suara AI yang sukar dibezakan daripada manusia sebenar.
Teknologi Sintesis Suara Terkini: Speechify
Melihat kembali perkembangan teknologi sintesis suara terdahulu, memang menakjubkan kemajuan sains hari ini. Kini, aplikasi seperti Speechify memudahkan terjemahan teks ke fail audio. Hanya dengan satu sentuhan, Speechify dapat menukar laman web, dokumen, dan imej teks kepada suara semula jadi. Pustaka Speechify diselaraskan pada semua peranti anda, jadi anda boleh belajar dan bekerja dengan mudah di mana sahaja. Cubalah aplikasi Speechify di App Store Apple dan Android Google Play.
Soalan Lazim
Siapa pencipta teks ke pertuturan?
Teks ke pertuturan untuk bahasa Inggeris dicipta oleh Noriko Umeda. Sistem ini dibangunkan di Electrotechnical Laboratory di Jepun pada tahun 1968.
Apakah tujuan teks ke pertuturan?
Ramai menggunakan teknologi teks ke pertuturan. Bagi mereka yang lebih selesa mendapatkan maklumat dalam format audio, teknologi TTS memudahkan akses kepada maklumat kerja atau pembelajaran tanpa perlu membaca terlalu lama. Profesional sibuk juga menggunakan TTS untuk kekal produktif apabila tidak dapat duduk di depan komputer. Banyak jenis TTS asalnya dibangunkan untuk mereka yang kurang upaya penglihatan, dan TTS kekal sebagai penyelesaian hebat bagi pengguna yang sukar membaca untuk mendapatkan maklumat yang diperlukan.
Bagaimana anda mensintesis pertuturan?
Bahagian suara yang dirakam disimpan dalam pangkalan data dalam pelbagai unit. Perisian menyediakan fail audio melalui pemilihan unit. Dari situ, suara dihasilkan. Selalunya, semakin besar julat output program, semakin sukar untuk memberikan kejelasan vokal kepada pengguna.

