Teks ke ucapan (TTS) dan sintesis suara nampak seperti teknologi baharu, tetapi sebenarnya sudah wujud sejak berabad lamanya.
Daripada cubaan awal meniru suara manusia dengan peranti mekanikal sehinggalah ke AI canggih dan model pembelajaran mendalam hari ini, perkembangan TTS memang satu perjalanan yang menarik.
Artikel ini menyusuri sejarah teks ke ucapan dan sintesis suara sambil meneroka potensi masa depannya.
Teks ke ucapan dan sintesis suara: dari permulaan hingga era moden
Abad ke-18 dan ke-19
Sejarah teks ke ucapan dan sintesis suara boleh dijejaki sejak abad ke-18 dan ke-19. Ketika itu, sudah ada usaha awal menghasilkan suara manusia menggunakan alat mekanikal. Pada 1770-an, Wolfgang von Kempelen, seorang pencipta dari Hungary, menghasilkan mesin suara akustik-mekanik yang meniru saluran vokal manusia. Alat analog ini menggunakan belos, buluh dan paip untuk menghasilkan bunyi vokal dan konsonan.
Pada akhir abad ke-18, seorang ahli fizik dari England, Charles Wheatstone, mencipta versi mekanikal mesin suara Kempelen yang dipanggil "speaking machine." Alat ini boleh menghasilkan bunyi pelbagai alat muzik. Walaupun alat Wheatstone bukan direka khusus untuk sintesis suara, ia mengukuhkan lagi idea menggunakan peranti mekanikal untuk menghasilkan bunyi.
Pada abad ke-19, pelbagai alat lain turut dibangunkan termasuk mesin "artificial speech" oleh Faber. Alat-alat ini menggabungkan sistem mekanik dan pneumatik untuk mencipta bunyi pertuturan.
Awal abad ke-20 dan sistem sintesis suara elektrik pertama
Pada awal abad ke-20, teknologi sintesis suara semakin maju dengan terciptanya sistem sintesis suara elektrik sepenuhnya – vocoder oleh Homer Dudley. Sistem ini dibangunkan di Bell Laboratories (Bell Labs) di New Jersey.
Vocoder Dudley menggunakan siri resonator dan penapis untuk menghasilkan suara sintetik. Mesin ini, dipanggil Voder, dipamerkan semasa Pameran Dunia 1939–1940 di Flushing Meadows, New York, dan dikendalikan dengan papan kekunci serta pedal kaki untuk menghasilkan pertuturan.
Awal 1950-an hingga akhir 1970-an – kemunculan pensintesis
Pada 1951, hasil kerja Dudley mencetuskan pembangunan pattern playback oleh Dr. Franklin S. Cooper di Haskins Laboratories. Sistem ini menganalisis bunyi rakaman, seperti perkataan, dan memecahkannya menjadi gelombang bunyi "pola spektrografik". Pola ini disimpan pada pita magnet dan dimainkan semula untuk menghasilkan versi sintetik bunyi asal.
Pada 1976, sistem teks ke ucapan komersial pertama diperkenalkan oleh Kurzweil Reading Machine. Sistem ini menggunakan teknik sintesis konkatenatif, yang menggabungkan fonem dan perkataan yang dirakam untuk menghasilkan suara sintetik. Alat ini direka untuk membantu individu kurang upaya tetapi kemudiannya menjadi popular sebagai bantuan bacaan.
Bermula 1978, Texas Instruments membangunkan cip sintesis suara untuk permainan video dan aplikasi komputer. Cip ini menggunakan sintesis konkatenatif dengan menggabungkan bunyi pertuturan yang dirakam (diphone) bagi menghasilkan suara yang menyerupai manusia. Teknologi ini kemudian digunakan dalam DECtalk, sistem teks ke ucapan berkualiti tinggi untuk golongan kurang upaya.
Sistem teks ke ucapan moden
Salah satu inovasi utama hari ini ialah penggunaan rangkaian neural untuk menghasilkan pertuturan sintetik. Google dan Microsoft membangunkan sistem TTS berkualiti tinggi menggunakan algoritma pembelajaran mendalam yang menganalisis data suara manusia untuk menjana pertuturan yang lebih semula jadi.
Perkembangan penting lain dalam TTS sebagai teknologi bantuan ialah penggunaan teknik pemilihan unit dan sintesis konkatenatif. Kaedah ini membolehkan penghasilan suara yang lebih realistik dengan menggabungkan unit suara rakaman seperti diphone atau perkataan penuh untuk membentuk ayat baharu. Teknik-teknik ini digunakan dalam aplikasi TTS popular seperti Speechify, Siri Apple, Alexa Amazon, dan juga alatan lebih lama seperti IBM ViaVoice.
Teknologi pengecaman suara juga semakin maju, membolehkan sistem TTS menjadi lebih sofistikated. Algoritma pengecaman suara yang menyalin suara manusia ke teks membantu TTS menjana pertuturan sintetik yang lebih lancar.
Akhir-akhir ini, prosofi dan intonasi turut diintegrasikan. Ini membolehkan pertuturan sintetik berbunyi lebih semula jadi, lengkap dengan jeda, tekanan dan nada yang sesuai. Prosofi sangat penting untuk bahasa seperti Inggeris, di mana tekanan dan intonasi mempengaruhi maksud ayat.
Pembelajaran mendalam dan masa depan teknologi
Masa depan teknologi TTS sangat menarik dan penuh potensi. Dengan kemajuan AI dan pembelajaran mendalam, kita akan dapat menghasilkan suara sintetik yang semakin hampir menyamai suara manusia sebenar.
Antara bidang yang paling banyak manfaat ialah pembangunan pembantu maya dan chatbot. Sistem ini bakal menjadi lebih mesra pengguna dan interaksinya terasa jauh lebih semula jadi.
Selain itu, kemajuan dalam transkripsi fonetik atau penukaran teks ke fonem juga dijangka terus meningkat. Apabila mesin semakin mahir memahami suara manusia, kecekapan serta ketepatan sistem pertuturan ke teks turut akan bertambah baik.
Akhir sekali, teknologi teks ke ucapan akan menjadi lebih mudah diakses dan digunakan dalam kehidupan seharian. Lebih banyak peranti yang disambungkan kepada Internet of Things boleh dikawal menggunakan suara secara masa nyata, sekali gus menjadikan hidup lebih mudah dan cekap.
Sertai revolusi teks ke ucapan dengan Speechify
Jika anda mencari perkhidmatan teks ke ucapan yang berkuasa dan boleh menghasilkan narasi semula jadi berkualiti tinggi, pilihlah Speechify.
Dengan teknologi sintesis formant canggih, Speechify menjana suara realistik yang kedengaran semula jadi – tidak lagi seperti suara robotik zaman dulu. Penulis terkenal seperti Stephen Hawking yang pernah menggunakan teknologi teks ke ucapan pun pasti akan kagum dengan Speechify.
Menggunakan Speechify amat mudah – layari laman web rasmi atau muat turun aplikasi mudah alih dan masukkan teks pilihan anda. Pilih suara, laraskan kelajuan serta nada yang anda mahu, dan siap! Speechify akan mencipta narasi hebat untuk e-pembelajaran, video penerangan, podcast, dan pembentangan. Anda juga boleh cipta suara tersuai untuk YouTube dan media sosial lain.
Jangan sekadar guna TTS biasa – cuba Speechify sekarang dan rasai sendiri masa depan teknologi teks ke ucapan.
FAQ
Siapakah pencipta pensintesis suara pertama di dunia?
Homer Dudley mereka bentuk pensintesis suara pertama di dunia pada awal 1930-an di Bell Laboratories, New York.
Apa tujuan sintesis suara?
Sintesis suara bertujuan menjana pertuturan tiruan daripada input teks menggunakan pemprosesan bahasa dan analisis frekuensi asas.
Apakah empat cara TTS boleh digunakan?
TTS boleh digunakan untuk aksesibiliti, hiburan, pembelajaran bahasa dan automasi perkhidmatan suara.
Apakah kelebihan utama teks ke ucapan?
Teks ke ucapan boleh meningkatkan aksesibiliti, mempercepatkan pembelajaran dan melonjakkan produktiviti dengan membolehkan pengguna mendengar kandungan bertulis.
Apakah detik paling mengejutkan dalam pembangunan sintesis teks ke ucapan?
Antara detik paling mengejutkan ialah penciptaan pensintesis suara mekanikal oleh Charles Wheatstone.

