Teknologi text to speech berkembang pesat, terutama dalam beberapa tahun terakhir. Berkat kemajuan kecerdasan buatan, TTS kini bisa menghasilkan suara mirip manusia dengan kualitas tinggi.
VALL-E dari Microsoft adalah teknologi mutakhir yang membuat text to speech terdengar sangat menyerupai suara manusia. Ini adalah model bahasa kodek neural berbasis pembelajaran mesin zero-shot.
Jika kalimat terakhir tadi terdengar seperti jargon fiksi ilmiah, tidak perlu khawatir. Kami akan mengupas konsep rumit di balik VALL-E dalam artikel ini.
Penjelasan Microsoft VALL-E
Model AI berkembang sangat cepat. Kini, hampir semua orang tahu ChatGPT dari OpenAI yang sangat canggih dan terasa seperti berbicara dengan manusia. Anda juga mungkin pernah melihat karya seni buatan AI dari mesin DALL-E.
Selain startup seperti OpenAI, perusahaan global seperti Microsoft juga berperan besar dalam pengembangan AI.
Peneliti Microsoft belakangan ini berfokus mengembangkan teknologi sintesis text to speech. VALL-E adalah hasilnya.
AI baru ini berpotensi merevolusi TTS karena dapat menghasilkan suara manusia hanya dari sampel audio pendek. Hanya butuh tiga detik rekaman agar VALL-E mengenali pola suara pembicara tertentu.
Setelah menerima prompt suara, AI dapat meniru suara manusia bahkan emosi dari pembicara. Tak kalah hebat, VALL-E juga mempertahankan karakter lingkungan akustik pembicara aslinya.
Singkatnya, model VALL-E sangat andal dalam meniru suara pembicara. Anda dapat mendengarkan demonya di GitHub, tempat Microsoft membagikan contoh audio dan penjelasan lengkapnya.
Teknologi ini tentu punya banyak potensi, seperti membuat podcast dan audiobook. Manfaatnya akan makin luas jika VALL-E dipadukan dengan model generatif seperti GPT-3.
Namun, teknologi seperti VALL-E juga bisa disalahgunakan.
Karena VALL-E bisa terdengar sangat mirip manusia, wajar jika muncul kekhawatiran soal penyalahgunaan untuk penipuan atau deepfake berbahaya. Hal ini mendorong Microsoft mengeluarkan pernyataan etika.
Dalam pernyataannya, perusahaan menyarankan penggunaan model edit suara khusus yang memastikan adanya persetujuan dari pembicara asli.
Meski begitu, isu kontroversi penggunaan VALL-E baru akan benar-benar relevan di masa depan. Untuk saat ini, ada pertanyaan menarik:
Bagaimana AI ini bisa meniru pola suara rumit hanya dengan sampel audio tiga detik?
Tidak heran, jawabannya juga cukup rumit.
VALL-E dilatih dengan ribuan jam rekaman pidato dalam Bahasa Inggris. Ini membuat AI siap menirukan ucapan bahasa Inggris dengan mulus. Namun, VALL-E berbeda dari TTS biasa – ia ditenagai teknologi machine learning mutakhir.
Kami sudah menyebut nama teknologinya: zero-shot neural codec language model. Berikut makna istilah tersebut dalam praktik.
Mengenal zero-shot neural codec language model
Istilah “zero-shot” mengacu pada teknologi khusus untuk mesin text to speech. Teknologi ini memungkinkan AI membacakan teks yang belum pernah dikenali sebelumnya. Artinya, komputer bisa menyuarakan bacaan yang belum pernah “dilihat”.
Lebih hebatnya, zero-shot membuat mesin mampu membaca tanpa perlu pelatihan tambahan. Mirip manusia yang membacakan teks asing dalam bahasa yang ia kuasai.
Bagian rumitnya, “neural codec language model” perlu penjelasan lebih lanjut.
Mesin TTS memanfaatkan codec audio untuk membuat gelombang suara dari teks tertulis. Codec membantu AI mengonversi huruf, kata, dan kalimat ke suara. Neural codec fungsinya sama, tetapi dibangun di atas jaringan neural yang kuat.
Tentu, muncul pertanyaan lanjutan: Apa itu jaringan neural?
Kami akan menjelaskan secara garis besar tanpa terlalu teknis. Jaringan neural berupaya meniru cara kerja otak manusia. Jaringan ini terdiri dari neuron buatan bernama node yang saling terhubung dan tersusun berlapis-lapis.
Struktur kompleks ini memungkinkan deep learning, sehingga mesin mampu mempelajari dan beradaptasi dengan pola baru yang belum dikenal.
Neural codec inilah yang mendukung model bahasa text to speech tersebut.
Model bahasa memanfaatkan dataset untuk memahami input teks dalam konteks bahasa yang sebenarnya. Inilah cara mesin “memahami” teks.
Dalam kasus VALL-E, LibriLight, perpustakaan audio dari Meta (Facebook), menjadi fondasi model bahasa AI ini.
Dengarkan teknologi TTS mutakhir di Speechify
Meski VALL-E belum tersedia untuk publik, Anda bisa merasakan kecanggihan mesin text to speech melalui Speechify. Speechify adalah layanan TTS yang bisa membacakan teks dari hampir semua sumber.
Baik itu teks tertulis, konten web, atau halaman hasil scan, Speechify membacanya seketika. Lebih baik lagi, suara naratornya terdengar alami. Berbeda dengan TTS biasa yang kaku, Speechify terdengar seperti manusia sungguhan.
Selain itu, Anda bisa mengatur cara membaca Speechify. Pilih bahasa, suara narator, kecepatan membaca, lalu dengarkan teks sesuai keinginan Anda.
Jika Anda tertarik, langsung saja coba Speechify gratis hari ini.
FAQ
Apakah Vall-E sudah bisa digunakan publik?
Ada banyak kekhawatiran soal kemungkinan penyalahgunaan VALL-E. Pencurian identitas adalah salah satu risiko utama. Karena itu, Microsoft belum merilis VALL-E ke publik.
Apa itu Microsoft AI?
Microsoft AI bukan produk tertentu, melainkan framework pengembangan AI dari perusahaan. Microsoft AI mencakup solusi data science, AI percakapan, robotik, machine learning, dan berbagai inovasi teknologi lainnya.
Apa itu antarmuka berbasis suara?
Antarmuka berbasis suara sesuai namanya — UI yang dioperasikan lewat perintah suara. Teknologi ini sudah umum di perangkat pintar, misalnya Alexa, Siri, Cortana, atau Google Assistant.
Apa itu robot?
Istilah “robot” merujuk pada mesin yang bekerja otomatis. Mesin semacam ini dibuat untuk menggantikan peran manusia. Meski sering digambarkan seperti manusia di media, kebanyakan robot tidak berbentuk humanoid. Bahkan, ada yang hanya berupa asisten virtual tanpa bentuk fisik.

