Perkhidmatan teks ke pertuturan (TTS) dan enjin sintesis suara menggunakan pelbagai model pembelajaran AI untuk hasilkan suara yang hampir menyamai suara manusia. Salah satunya ialah model suara autoregressive, model generatif yang digunakan untuk penjanaan suara. Artikel ini menerangkan cara kerja model autoregressive dan penggunaannya dalam sintesis suara.
Penjelasan model autoregressive
Model autoregressive ialah model statistik yang biasa digunakan dalam pemprosesan isyarat, pengecaman pertuturan, dan sintesis suara. Ia menjadi asas penting dalam teknologi pertuturan moden, terutama sistem TTS. Untuk faham cara ia berfungsi, bayangkan sebuah mesin ramalan cuaca. Setiap hari, mesin ini ambil data hari sebelumnya (itulah unsur "autoregressive") — seperti suhu, kelembapan, dan kelajuan angin — dan meramalkan cuaca esok. Faktor lain, seperti musim, lokasi dan corak cuaca juga diambil kira (“model” itu sendiri). Gabungan semua faktor ini membantu mesin meramal cuaca esok, walau tak selalu tepat – kerana cuaca sukar dijangka. Namun lebih banyak data, lebih baik ramalannya. Ini contoh model autoregressive: meramal nilai seterusnya berdasarkan nilai-nilai sebelumnya dalam siri masa. Ringkasnya, ia menggunakan gabungan data lalu untuk meramal apa yang bakal datang seterusnya. Keupayaan meramal ini menjadikan model autoregressive amat sesuai untuk teknologi suara yang mahu menghasilkan suara semula jadi berasaskan sampel audio sebelumnya. Model autoregressive terdiri daripada dua komponen utama: pengekod (encoder) dan penyahkod (decoder). Encoder menerima input seperti spektrogram atau urutan fonem lalu menukarnya ke bentuk laten tersembunyi. Decoder menghasilkan output seperti gelombang suara atau spektrogram daripada bentuk laten tadi. Satu model popular, WaveNet, menggunakan penumpuan kausal dilated untuk memodelkan proses autoregressive. Ia sejenis model Gaussian yang mampu hasilkan audio hampir menyamai suara manusia sebenar. Ciri penting lain: ia boleh dikondisikan pada pelbagai input, misalnya gunakan set data berbilang suara (multi-speaker) untuk sistem TTS pelbagai suara. Ini dicapai dengan melatih decoder menggunakan maklumat identiti penutur. Model autoregressive boleh dilatih dengan pelbagai algoritma pengoptimuman, termasuk variational autoencoders dan rangkaian saraf berulang (RNN). Data latihan mesti berkualiti tinggi untuk memastikan pertuturan yang dihasilkan kedengaran alami dan tepat.
Aplikasi model autoregressive dalam sintesis suara
Sintesis pertuturan bermaksud menghasilkan suara seperti manusia daripada mesin. Salah satu kaedah utama ialah menggunakan model autoregressive. Dalam pendekatan ini, mesin menganalisis ciri akustik suara – seperti nada, tempoh, dan volum – menggunakan encoder dan decoder. Encoder memproses data mentah kepada ciri tahap tinggi, lalu diberi kepada decoder untuk menghasilkan rangkaian elemen akustik yang mewakili pertuturan yang dikehendaki. Sifat autoregressive membolehkan decoder meramal setiap ciri berdasarkan hasil sebelumnya, lalu menghasilkan pertuturan yang kedengaran semula jadi. WaveNet ialah model autoregressive yang banyak digunakan dalam sintesis suara. WaveNet guna rangkaian neural konvolusi (CNN) untuk hasilkan ciri akustik, yang kemudiannya ditukar ke suara oleh vocoder. Model dilatih pada data suara berkualiti tinggi untuk mempelajari corak hubungan antara ciri akustik. Model siap-latih (pre-trained), biasanya berasaskan rangkaian LSTM, boleh mempercepat proses latihan dan meningkatkan prestasi model suara autoregressive. Penyelidik juga menambah baik kualiti suara terhasil daripada model WaveNet, contohnya dengan FastSpeech—model pengiktirafan automatik hujung ke hujung yang memendekkan sela masa serta memacu kelajuan proses sintesis. Ia menggunakan mekanisme tumpuan khas untuk meramal tempoh dan nada setiap fonem dalam urutan pertuturan. Penyelidikan lain melibatkan penukaran suara, iaitu mengubah suara seseorang agar kedengaran seperti suara orang lain dengan melatih model pada data sumber dan sasaran. Model itu boleh tukar suara asal ke suara sasaran sambil kekalkan isi dan prosodi ucapan. Komponen utama model autoregressive ialah neural vocoder, penjana gelombang suara berkualiti tinggi – yang menukarkan output model ke bentuk gelombang audio sebenar. Tanpa ini, suara terhasil akan kedengaran robotik. Kajian model suara autoregressive telah menerima lebih 2.3 bilion petikan, membuktikan kepentingannya dalam bidang pemprosesan suara. Malah, kajian ini banyak dipersembahkan di persidangan ICASSP dengan fokus utama pada penambahbaikan model akustik. Banyak juga makalah diterbitkan di arxiv.org dan GitHub tentang pelbagai algoritma, seni bina, dan teknik pengoptimuman. Prestasi model dinilai dengan pelbagai metrik seperti skor MOS, kadar ralat perkataan (WER), dan penyelewengan spektrum (SD).
Jadi pengguna mahir teks ke suara AI dengan Speechify
Speechify ialah perkhidmatan TTS dipacu AI untuk menghasilkan narasi semula jadi untuk semua jenis teks. Ia menukar teks ke suara dengan model pembelajaran mendalam yang dilatih pada data suara berskala besar. Untuk guna Speechify, salin atau muat naik fail anda, kemudian pilih suara dan bahasa kegemaran anda. Speechify akan menjana fail audio berkualiti tinggi yang boleh anda muat turun atau kongsi. Speechify menggunakan model autoregressive untuk memastikan pertuturan yang dihasilkan mengikut aliran semula jadi suara manusia. Anda boleh hasilkan audio berkualiti tinggi secara masa nyata dan gunakannya untuk pelbagai kegunaan, termasuk podcast, video, dan buku audio. Kenapa tunggu? Cuba Speechify hari ini dan alami sendiri cara baru menjana audio berkualiti premium untuk projek anda.
Soalan Lazim
Apakah model siri masa autoregressive?
Model siri masa autoregressive ialah model statistik yang meramal nilai akan datang berdasarkan nilai lalu.
Apa beza AR dan ARMA?
Model ARMA lebih umum kerana ada unsur autoregressive dan purata bergerak, manakala AR hanya model autoregressive tanpa purata bergerak.
Apa perbezaan antara siri masa dan pembelajaran mendalam?
Analisis siri masa ialah teknik statistik untuk data berasaskan masa. Pembelajaran mendalam pula cabang kecil pembelajaran mesin yang melatih rangkaian saraf tiruan agar belajar terus daripada data.
Apa beza model autoregressive dan bukan-autoregressive?
Model autoregressive jana output ikut turutan berdasarkan output terdahulu, manakala model bukan-autoregressive jana semua output serentak tanpa bergantung pada hasil sebelumnya.

