Berkat kemajuan dalam pembelajaran mesin, peniruan suara telah berkembang pesat, menghasilkan beberapa penyelesaian teks ke suara paling canggih setakat ini. Antara inovasi utama ialah zero shot, yang kini menjadi tumpuan dalam dunia teknologi. Artikel ini akan memperkenalkan peniruan suara zero-shot dan bagaimana ia mengubah industri.
Penjelasan Pembelajaran Mesin Zero-shot
Tujuan peniruan suara ialah meniru suara seseorang dengan menyintesis nada dan warna suara menggunakan sedikit rakaman sahaja. Maksudnya, peniruan suara ialah teknologi canggih yang menggunakan AI untuk menghasilkan suara yang hampir sama dengan individu tertentu. Terdapat tiga proses utama peniruan suara:
Pembelajaran One-shot
Pembelajaran one-shot bermaksud model dilatih hanya dengan satu imej sesuatu yang baharu, tetapi masih boleh mengecam imej lain untuk perkara yang sama.
Pembelajaran Few-shot
Pembelajaran few-shot ialah apabila model ditunjukkan beberapa imej perkara baharu dan mampu mengenali yang serupa walaupun terdapat sedikit perbezaan.
Pembelajaran Zero-shot
Pembelajaran zero-shot ialah mengajar model mengenal pasti objek atau konsep baharu yang tidak pernah dilatih sebelum ini dengan menggunakan set data, seperti VCTK, untuk menerangkannya. Model diajar mengenal pasti sesuatu tanpa imej, contoh, atau data latihan lain. Sebaliknya, anda berikan ciri atau sifat untuk menghuraikan item baharu itu.
Apa itu Peniruan Suara?
Peniruan suara ialah proses meniru suara seseorang menggunakan teknik pembelajaran mesin. Tujuan peniruan suara ialah untuk menghasilkan semula nada suara dengan hanya sedikit rakaman suara individu itu. Dalam proses ini, pengekod suara menukar ucapan kepada kod yang kemudian dijadikan vektor melalui speaker embedding. Vektor itu digunakan untuk melatih penyintesis (vocoder) bagi menghasilkan ucapan yang hampir sama dengan suara asal. Penyintesis menerima vektor dan mel spektrogram, iaitu gambaran visual isyarat ucapan, sebagai input. Inilah proses asas untuk peniruan suara. Hasilnya ialah gelombang bunyi ucapan yang disintesis. Proses ini biasanya menggunakan teknik pembelajaran mesin seperti deep learning dan boleh dilatih menggunakan pelbagai set data serta metrik untuk menilai kualiti ucapan yang dijana. Peniruan suara digunakan untuk:
- Penukaran suara - menukarkan suara seseorang kepada suara orang lain.
- Pengesahan penutur - menyemak identiti seseorang melalui suara mereka.
- Multi-penutur teks ke suara - menghasilkan ucapan daripada teks dan kata kunci
Algoritma peniruan suara popular termasuk WaveNet, Tacotron2, Zero-shot Multi-penutur TTS, dan VALL-E daripada Microsoft. Banyak algoritma sumber terbuka juga boleh ditemui di GitHub dengan hasil yang baik. Jika anda ingin tahu lebih lanjut tentang teknik peniruan suara, ICASSP, Interspeech, dan Persidangan Antarabangsa IEEE ialah rujukan utama.
Zero-shot dalam Peniruan Suara
Pengekod suara digunakan untuk mengekstrak vektor daripada data latihan bagi mencapai peniruan suara zero-shot. Vektor ini digunakan untuk memproses suara penutur yang tidak termasuk dalam set data latihan, dikenali juga sebagai penutur baharu. Ini boleh dicapai dengan melatih rangkaian neural menggunakan pelbagai teknik seperti:
- Model konvolusi ialah model rangkaian neural untuk menyelesaikan masalah klasifikasi imej.
- Model autoregresif boleh meramal nilai masa depan berdasarkan data lalu.
Antara cabaran utama peniruan suara zero-shot ialah memastikan output ucapan berkualiti tinggi dan kedengaran semula jadi. Untuk mengatasinya, metrik tertentu digunakan untuk menilai hasil sintesis:
- Kesamaan penutur mengukur persamaan suara sintesis dengan corak asal penutur sebenar.
- Keaslian ucapan merujuk kepada sejauh mana suara disintesis kedengaran semula jadi.
Data sebenar dari dunia nyata yang digunakan untuk melatih dan menilai model AI dikenali sebagai audio rujukan ground truth. Data ini digunakan untuk latihan dan penormalan. Teknik pindahan gaya juga digunakan untuk meningkatkan keupayaan generalisasi model. Pindahan gaya menggunakan dua input—satu untuk kandungan utama, satu lagi untuk rujukan gaya—supaya model lebih mudah menyesuaikan diri dengan data baharu, atau dalam kata lain, lebih mampu menangani situasi baharu.
Terokai Teknologi Peniruan Suara Terkini dengan Speechify Studio
Peniruan suara AI Speechify Studio membolehkan anda mencipta versi AI suara tersendiri—sesuai untuk narasi peribadi, konsistensi jenama atau menambah sentuhan mesra pada projek anda. Hanya rakam sampel, dan model AI Speechify akan menjana replika digital yang realistik. Mahukan lebih fleksibiliti? Alat terbina dalam penukar suara membolehkan anda menukar suara rakaman kepada lebih 1,000+ suara AI Speechify Studio, memberi kawalan kreatif penuh ke atas nada, gaya dan penyampaian. Sama ada menggunakan suara sendiri atau mengubah audio, semuanya jadi lebih mudah dengan Speechify Studio.
Soalan Lazim
Apakah tujuan peniruan suara?
Peniruan suara bertujuan menghasilkan ucapan berkualiti tinggi dan semula jadi yang boleh digunakan dalam pelbagai aplikasi untuk memudahkan komunikasi antara manusia dan mesin.
Apakah beza antara penukaran suara dan peniruan suara?
Penukaran suara mengubah suara seseorang supaya mirip orang lain, manakala peniruan suara mencipta suara baharu yang menyerupai penutur sebenar.
Perisian apa boleh meniru suara seseorang?
Banyak pilihan tersedia, seperti Speechify, Resemble.ai, Play.ht dan lain-lain.
Bagaimana mengesan suara palsu?
Kaedah paling lazim mengesan audio deepfake ialah analisis spektrum, iaitu menganalisis isyarat audio untuk mengesan corak suara tertentu.

