Banyak orang memakai layanan text-to-speech dan asisten virtual setiap hari. Namun, banyak yang belum tahu kedua layanan ini punya banyak kemiripan dalam cara kerjanya. Seiring teknologi berkembang, kualitas aplikasi yang kita pakai sehari-hari juga makin meningkat.
Hal serupa juga terjadi pada aplikasi TTS dan VA. Ada beberapa perusahaan dengan hasil luar biasa di bidang ini, salah satunya Google lewat teknologi WaveNet.
Apa itu Google WaveNet?
WaveNet adalah jaringan saraf buatan yang dibuat untuk menghasilkan audio mentah. Tim di baliknya adalah DeepMind, perusahaan asal London yang fokus pada AI. Kehadiran teknologi ini membawa perubahan besar di platform Google Cloud, membuat semuanya jauh lebih canggih.
Salah satu keunggulan utama DeepMind milik Google dibanding sistem text-to-speech sebelumnya adalah kualitas suaranya yang jauh lebih baik. Saat diluncurkan pada 2016, TTS belum mampu menghasilkan suara yang benar-benar alami.
WaveNet text-to-speech unggul di banyak aspek. Konsep teknologinya sederhana. Software ini bisa memakai file audio mentah seperti WAV sebagai input, serta terhubung dengan API Google dan API key.
Sekarang sudah banyak cara memanfaatkan teknologi ini berkat kemampuan kita mengolah algoritma rumit. Banyak perusahaan berlomba menghadirkan produk terbaik. Ini hal positif, karena pengguna jadi punya lebih banyak pilihan untuk menemukan program yang paling pas.
Cara Kerja WaveNet
WaveNet adalah versi FNN (feedforward neural network) atau jaringan saraf konvolusi mendalam. CNN mengambil sinyal mentah dari input lalu mensintesis output satu sampel demi satu sampel.
Tentu saja, dasarnya adalah machine learning, natural language processing, deep learning, dan kecerdasan mesin. Pada generasi aplikasi text-to-speech terdahulu, idenya adalah membuat database fonem dan membiarkan aplikasi memilih yang paling cocok untuk menghasilkan suara.
Namun, menyusun "puzzle" seperti ini tidak mudah. Software harus memahami cara kerja bahasa, termasuk ritme dan dinamika. Kalau tidak, suara dari speaker akan terdengar kaku dan tidak alami.
Seperti kebanyakan program text-to-speech, WaveNet juga memakai gelombang audio asli—misalnya parametric atau concatenative. Dengan ini, program bisa menganalisis aturan bahasa dan suara, serta perubahannya seiring waktu.
Hal ini memungkinkan program menciptakan pola suara yang mendekati bicara manusia dari sampel ucapan. Menariknya, hasil suara yang dihasilkan bergantung pada data yang diberikan ke software.
Contoh dalam kehidupan nyata: Jika kamu berbicara bahasa Italia, program dapat membantu menghasilkan suara berbahasa Italia. Ini jadi lompatan besar pada masanya dan membuka jalan bagi munculnya API text-to-speech lain.
Contoh WaveNet dalam Aksi
Saat pertama kali diperkenalkan Google, softwarenya butuh daya proses sangat besar untuk bisa dipakai. Namun, semuanya berubah dalam beberapa tahun berikutnya. API ini kemudian digunakan untuk suara Google Assistant di berbagai platform.
WaveNet juga cocok buat kamu yang sedang cari software TTS. Suaranya lebih realistis, membuat pengalaman mendengarkan jadi makin menyenangkan. Kamu bisa memakainya untuk mendengar berita terbaru, transkrip podcast, atau konten lain yang kamu mau.
Ini baru permulaan. Proses ini juga bisa membantu penyandang gangguan bicara mendapatkan "suara" lagi. Sintesis suara atau tiruan suara punya potensi besar. Misalnya, penyandang gangguan bicara bisa menggunakan sampel suara mereka dan mengintegrasikannya dengan alat text-to-speech agar suara mereka bisa kembali terdengar.
Kita belum tahu seperti apa masa depan TTS, tapi kemungkinannya sangat menarik. Salah satu hal terbaik dari inovasi ini adalah banyak perusahaan turut mengembangkan produk TTS.
Kalau semua punya tujuan yang sama, hasil yang luar biasa pun jauh lebih mungkin tercapai.
Speechify - Sintesis Suara
Salah satu program yang wajib kamu coba adalah Speechify. Ini aplikasi text-to-speech yang bisa dipakai di hampir semua perangkat. Tersedia untuk iOS, Android, Mac, bahkan sebagai ekstensi untuk Google Chrome.
Speechify bisa membaca hampir semua jenis konten. Bisa membaca PDF, dokumen, email, atau file lain di perangkatmu. Keunggulan utama aplikasi ini adalah fleksibilitas dan opsi kustomisasi yang tinggi.
Kamu dapat mengubah kecepatan baca, memilih suara, mengatur nada bicara, dan lain-lain. Speechify juga punya fitur OCR, jadi kamu bisa memfoto buku dan aplikasinya akan membacakannya untukmu.
Aplikasi ini dirancang khusus untuk orang dengan disleksia, ADD, pembelajar bahasa, atau siapa saja yang ingin tetap produktif sambil "membaca". Aplikasi all-in-one ini akan mengubah cara kamu menikmati bacaan.
Speechify mudah digunakan—kamu tak perlu tutorial rumit untuk bisa menguasainya.
FAQ
WaveNet digunakan untuk apa?
Ini adalah jaringan saraf mendalam yang bisa menciptakan audio mentah. WaveNet menawarkan sintesis text-to-speech dengan suara realistis dan dapat dilatih menggunakan rekaman asli. Hasilnya, WaveNet mampu melampaui Google Cloud TTS.
Saat ini, software tersebut digunakan untuk suara Google Assistant.
Apa model WaveNet itu?
Model ini berbasis pada arsitektur PixelCNN. Untuk menangani dependensi jangka panjang guna menciptakan output mentah, arsitektur ini memakai konvolusi kausal berdilatasi.
Penambahan dilated CNN memungkinkan proses pelatihan yang lebih cepat dan mudah, dapat melacak ribuan lapis ke belakang, dan bekerja 20x lebih cepat dari waktu nyata.
Apa beda WaveNet dan Convolutional Neural Network?
Software WaveNet berbasis CNN (jaringan saraf konvolusi dalam). Artinya, WaveNet adalah salah satu penerapan CNN. Teknologi serupa digunakan Microsoft, Amazon (dengan SSML), dan menghasilkan kualitas tinggi serta performa yang mengesankan.
Kalau kamu mencari aplikasi text-to-speech terbaik, pilih Speechify. Meski platform lain juga punya keunggulan, Speechify sangat mudah digunakan, praktis, dan intuitif untuk siapa pun yang ingin mengubah teks menjadi audio.

