Sintesis suara, atau produksi buatan suara manusia, telah berkembang pesat selama 70 tahun terakhir. Baik Anda memakai layanan text-to-speech untuk mendengarkan buku, belajar, atau memeriksa tulisan sendiri, layanan text-to-speech jelas memudahkan hidup banyak orang di berbagai profesi.
Di sini, kami akan membahas cara kerja text-to-speech dan bagaimana teknologi ini berubah seiring waktu.
Pendahuluan
Pada 1700-an, profesor Rusia Christian Kratzenstein membuat resonator akustik yang meniru suara manusia. Dua dekade kemudian, VODER (Voice Operating Demonstrator) jadi sorotan di New York World’s Fair saat penciptanya, Homer Dudley, mendemonstrasikan cara membuat suara manusia secara buatan. Perangkat ini sulit digunakan–Dudley harus mengatur frekuensi dasar dengan pedal kaki.
Awal 1800-an, Charles Wheatstone mengembangkan synthesizer suara mekanik pertama. Inilah awal evolusi cepat alat dan teknologi sintesis artikulasi.
Sulit mendefinisikan apa yang membuat program text-to-speech bagus, tapi umumnya Anda langsung tahu saat mendengarnya. Program berkualitas tinggi menawarkan suara alami dengan infleksi dan nada yang nyata.
Teknologi text-to-speech membantu orang dengan gangguan penglihatan dan disabilitas lain mendapatkan informasi yang mereka butuhkan untuk berkembang di pekerjaan dan berkomunikasi dengan orang lain. Software ini juga memungkinkan pelajar dan mereka yang punya beban membaca berat untuk mendengar informasi via suara ketika sedang bepergian. Suara buatan membantu orang menyelesaikan lebih banyak dalam waktu lebih singkat, bermanfaat di banyak bidang, mulai dari pembuatan game hingga membantu mereka yang kesulitan memproses bahasa.
1950-an dan 60-an
Akhir 1950-an, sistem sintesis suara pertama dibuat dan sudah berbasis komputer. Pada 1961, fisikawan Bell Labs, John Larry Kelly Jr., menggunakan komputer IBM untuk mensintesis suara. Vocoder (voice recorder synthesizer) miliknya bahkan bisa menyanyikan lagu Daisy Bell.
Saat Kelly menyempurnakan vocoder, Arthur C. Clarke, penulis 2001: A Space Odyssey, memasukkan demonstrasi Kelly ke dalam skenario bukunya. Di salah satu adegan, komputer HAL 9000 menyanyikan Daisy Bell.
Tahun 1966, linear predictive coding mulai dikembangkan berkat Fumitada Itakura dan Shuzo Saito, serta kontribusi Bishnu S. Atal dan Manfred R. Schroeder.
1970-an
Pada 1975, metode line spectral pairs dikembangkan Itakura. Metode pengkodean suara kompresi tinggi ini membantunya memahami analisis dan sintesis suara, menemukan kelemahan sekaligus cara memperbaikinya.
Di tahun yang sama, MUSA juga dirilis. Sistem sintesis suara mandiri ini memakai algoritma untuk membaca bahasa Italia. Versi tiga tahun berikutnya bahkan bisa bernyanyi dalam bahasa Italia.
Di tahun 70-an, synthesizer artikulasi pertama dibuat berdasarkan saluran vokal manusia. Synthesizer pertama dibuat Tom Baer, Paul Mermelstein, dan Philip Rubin di Haskins Laboratories, memakai model saluran vokal dari Bell Labs pada 60-an dan 70-an.
Tahun 1976, Kurzweil Reading Machines for the Blind diperkenalkan. Meski terlalu mahal bagi publik, perpustakaan sering menyediakan alat ini untuk tunanetra guna mendengarkan buku.
Linear predictive coding menjadi dasar chip synthesizer. Texas Instruments LPC Speech Chips dan mainan Speak & Spell di akhir 1970-an memakai teknologi chip ini. Mainan ini menampilkan sintesis suara manusia dengan intonasi akurat, berbeda dari suara sintetis robotik yang umum saat itu. Banyak perangkat elektronik genggam yang mampu mensintesis suara populer di dekade ini, termasuk kalkulator Telesensory Systems Speech+ untuk tunanetra. Fidelity Voice Chess Challenger, komputer catur yang bisa menghasilkan suara, dirilis tahun 1979.
1980-an
Tahun 1980-an, sintesis suara mulai merambah dunia game. Tahun 1980, Stratovox (game arcade tembak) dirilis Sun Electronics. Manbiki Shoujo (Shoplifting Girl) jadi game PC pertama yang mampu mensintesis suara. Game elektronik Milton juga rilis 1980–ini game elektronik pertama dari The Milton Bradley Company yang bisa meniru suara manusia.
Tahun 1983 muncul mesin suara mekanik-akustik mandiri bernama DECtalk. DECtalk mengenali ejaan fonetik kata untuk pengucapan yang disesuaikan. Ejaan fonetik bisa memuat penanda nada, memungkinkan DECtalk untuk bernyanyi.
Akhir 80-an, Steve Jobs membuat NeXT bersama Trillium Sound Research. Meski NeXT gagal berkembang, Jobs kemudian menggabungkannya ke Apple pada 90-an.
1990-an
Versi awal sistem text-to-speech terdengar sangat robotik, tapi berubah di akhir 80-an dan awal 90-an. Konsonan yang lebih lembut membuat mesin bicara terdengar lebih alami. Tahun 1990, Ann Syrdal dari AT&T Bell Labs mengembangkan suara synthesizer perempuan. Para insinyur berusaha membuat suara lebih natural sepanjang 90-an.
Tahun 1999, Microsoft merilis Narrator—solusi pembaca layar yang kini hadir di setiap Windows.
2000-an
Sintesis suara mengalami hambatan pada 2000-an saat developer sulit menyepakati standar suara. Karena suara sangat personal, sulit mencapai kesepakatan pengucapan fonem, diphon, intonasi, pola, infleksi, dan playback.
Kualitas audio formant synthesis juga jadi sorotan di 90-an, saat peneliti menyadari kualitas di laboratorium sering jauh lebih baik daripada alat yang digunakan pengguna. Banyak orang mengingat suara sintetis Stephen Hawking yang terdengar seperti suara robotik dengan sedikit sekali nuansa manusiawi.
Tahun 2005, akhirnya peneliti menyepakati dataset suara bersama untuk membuat sistem sintesis suara tingkat tinggi.
Tahun 2007, studi menunjukkan pendengar bisa tahu pembicara sedang tersenyum atau tidak. Para peneliti terus mencari cara memanfaatkan info ini untuk membuat software pengenalan dan sintesis suara lebih alami.
2010-an
Kini, produk sintesis suara hadir di mana-mana—dari Siri sampai Alexa. Synthesizer suara elektronik tidak hanya memudahkan hidup, tapi juga membuat segalanya lebih menyenangkan. Baik Anda memakai sistem TTS untuk mendengarkan novel di perjalanan atau aplikasi untuk belajar bahasa asing, kemungkinan besar Anda memakai teknologi text-to-speech setiap hari untuk tetap mengasah otak.
Masa Depan
Di masa depan, teknologi sintesis suara kemungkinan akan berfokus pada pemodelan otak untuk memahami cara otak kita menyimpan data suara. Teknologi suara juga akan lebih memahami peran emosi dalam bicara, dan memakai data itu untuk membuat suara AI yang sulit dibedakan dari manusia asli.
Terbaru di Teknologi Sintesis Suara: Speechify
Melihat transisi dari teknologi awal, sungguh luar biasa sejauh apa sains berkembang. Kini, aplikasi seperti Speechify memudahkan Anda mengubah teks apa pun jadi audio. Hanya dengan sekali klik (atau tap di aplikasi), Speechify bisa mengubah situs, dokumen, dan foto teks jadi suara alami. Perpustakaan Speechify tersinkron di semua perangkat Anda, jadi Anda bisa belajar dan bekerja di mana saja. Cek aplikasi Speechify di App Store Apple maupun Android Google Play.
FAQ
Siapa penemu text-to-speech?
Text-to-speech bahasa Inggris ditemukan oleh Noriko Umeda. Sistemnya dikembangkan di Electrotechnical Laboratory Jepang pada 1968.
Apa tujuan text-to-speech?
Banyak orang memakai teknologi text-to-speech. Bagi yang lebih suka info audio, teknologi TTS memudahkan mendapat info penting tanpa harus berlama-lama membaca buku. Profesional sibuk juga memakai TTS untuk tetap produktif walau tak bisa duduk di depan komputer. Banyak TTS awal dibuat untuk tunanetra, dan TTS tetap jadi solusi hebat bagi yang kesulitan melihat agar tetap bisa mengakses informasi yang mereka butuhkan.
Bagaimana cara mensintesis suara?
Potongan suara rekaman disimpan di basis data dalam berbagai unit. Software menyiapkan file audio dengan memilih unit-unit tersebut. Lalu, suara dibentuk. Umumnya, semakin banyak cuplikan, makin sulit program menjaga kejelasan suara bagi pengguna.

