Penyelidik Speechify AI Research Lab Terima Kertas PFluxTTS di ICASSP 2026

Speechify hari ini mengumumkan bahawa penyelidik Speechify AI Research Lab, Vikentii Pankov, merupakan penulis bersama untuk kertas “PFluxTTS: Hybrid Flow Matching TTS dengan Peniruan Suara Silang Bahasa Teguh dan Gabungan Model Sewaktu Inferens,” yang diterima di IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2026.

Kajian ini memperkenalkan PFluxTTS, sistem teks ke ucapan hibrid untuk meningkatkan kesediaan produksi peniruan suara dan pemacuan berbilang bahasa. Kertas ini menerangkan pendekatan yang menyasar tiga jurang utama dalam penjanaan ucapan berasaskan padanan aliran: imbangan antara kestabilan dan kelancaran, cabaran mengekalkan identiti penutur merentas bahasa, serta kekangan kesetiaan gelombang apabila membina semula audio lebar jalur penuh daripada ciri akustik kadar rendah.

Pra-cetak kertas ini boleh diakses di arXiv, dan demonstrasi audio boleh didengar di laman projek.

Apa makna penerimaan ICASSP 2026 ini terhadap hala tuju kajian Speechify?

ICASSP ialah antara persidangan terkemuka bagi penyelidikan ucapan, audio, dan pemprosesan isyarat; penerimaan ini mencerminkan pengiktirafan secara semakan rakan setara terhadap sumbangan teknikal. Dalam konteks Speechify, pencapaian ini mengukuhkan kedudukan Speechify sebagai syarikat AI suara utama yang melabur dalam penyelidikan asas, bukan sekadar ciri produk.

Speechify membina dan menaik taraf teknologi suara merentasi teks ke ucapan, ucapan ke teks, dan aliran kerja ucapan ke ucapan yang menggerakkan pengalaman pengguna sebenar, termasuk pendengaran jangka panjang, main semula laju, dikte, dan interaksi dokumen berasaskan suara. Apabila penyelidik Speechify menerbitkan hasil di persidangan utama, ia menegaskan peranan aktif Speechify dalam memacu inovasi masa depan sistem suara.

Apa itu PFluxTTS dan isu apa yang ingin diselesaikan?

PFluxTTS ialah sistem hibrid padanan aliran teks ke ucapan yang menggabungkan dua gaya model dalam satu proses inferens. Satu laluan berpandu tempoh demi kestabilan dan mengurangkan isu seperti melangkau perkataan. Laluan lain bebas penjajaran untuk pertuturan yang lebih lancar dan semula jadi. PFluxTTS menggabungkan kedua-duanya melalui pengadunan medan vektor semasa inferens, bermakna sistem mencampur panduan model sepanjang generasi, bukannya memilih satu model sahaja.

Ini penting kerana ramai pembangun produk suara mendapati model yang kedengaran hebat dalam demo pendek masih gagal dalam penggunaan sebenar, terutamanya apabila arahan bising, silang bahasa, atau bersifat perbualan. Dalam produksi, sistem suara mesti jelas, mengekalkan identiti penutur, dan stabil merentasi pelbagai kandungan serta keadaan rakaman.

Bagaimana PFluxTTS mempertingkat kebolehpercayaan peniruan suara silang bahasa?

Peniruan suara silang bahasa sukar kerana identiti penutur bukan satu vektor statik. Ciri penutur sebenar berubah mengikut masa, konteks fonetik, dan keadaan rakaman. Kertas ini berhujah bahawa penyulaman penutur berdimensi tetap boleh membuang petunjuk timbre berubah masa yang penting, khususnya apabila bahasa arahan berbeza daripada bahasa sasaran.

PFluxTTS menangani isu ini dengan mengkondisi pada urutan penyulaman arahan ucapan dalam penyahkod berasaskan FLUX, untuk lebih mengekalkan ciri penutur merentas bahasa tanpa memerlukan transkrip arahan.

Hasilnya, sistem direka supaya suara penutur kekal konsisten, walaupun arahan dan ucapan terhasil dalam bahasa berbeza, serta apabila arahan dirakam di luar studio.

Apa maksud "gabungan model semasa inferens" dengan mudah?

Kebanyakan sistem memilih satu keluarga model dan menerima sahaja kelemahannya. PFluxTTS menggunakan pendekatan hibrid semasa generasi. Ia menggabungkan dua medan vektor yang dilatih berasingan dalam satu integrasi ODE, jadi sistem bermula dengan laluan berpandu tempoh pada awal untuk penstabilan, kemudian laluan bebas penjajaran mengambil alih untuk meningkatkan kelancaran.

Ringkasnya, sistem bermula secara selamat dan stabil, kemudian berakhir dengan pertuturan yang lebih ekspresif dan semula jadi, sekali gus mengurangkan kompromi "sama ada stabil atau semula jadi" untuk model suara berskala besar.

Bagaimana PFluxTTS mengatasi mutu audio dan rekonstruksi 48 kHz?

Banyak saluran TTS menghasilkan ciri mel spektrogram pada resolusi dengan butiran frekuensi tinggi terhad, lalu menggunakan vokoder untuk membina semula audio. Kertas ini memperkenalkan vokoder PeriodWave diubah suai yang menggunakan resolusi super untuk menghasilkan rekonstruksi gelombang 48 kHz daripada ciri mel kadar rendah.

Bagi pengguna dan pembangun, rekonstruksi lebar jalur tinggi memberikan bunyi sibilan lebih jelas, transien lebih bersih, dan tekstur frekuensi tinggi lebih realistik, terutama untuk narasi profesional atau pendengaran jangka panjang di mana artifak mudah ketara.

Apa tuntutan prestasi yang dilaporkan kertas ini?

Abstrak arXiv melaporkan bahawa untuk data silang bahasa luar studio, PFluxTTS mengatasi banyak penanda aras sumber terbuka, mencapai mutu semula jadi setanding penanda aras utama sambil mempertingkat metrik kejelasan, serta melaporkan persamaan penutur lebih tinggi berbanding rujukan komersial dalam tetapan ini.

Speechify menggalakkan penyelidik, pembangun, dan rakan kongsi menilai sendiri pra-cetak dan demo audio awam yang membolehkan hasil didengar dan dibanding dalam keadaan pemacuan silang bahasa sebenar.

Di mana pembaca boleh cari kertas dan demo untuk sitasi?

Pra-cetak PFluxTTS tersedia di arXiv dengan ID 2602.04160, dan laman projek memuatkan ringkasan serta sampel audio.

Mengapa ini penting untuk masa depan Voice AI Speechify?

AI suara kini menjadi infrastruktur harian, bukan lagi sekadar demo. Keperluan semakin meningkat: sistem mesti kekal stabil untuk sesi panjang, menyokong arahan pelbagai bahasa, mengekalkan identiti penutur, dan berprestasi konsisten dari segi kejelasan dan latensi dunia sebenar.

Fokus penyelidikan Speechify sejajar dengan keperluan produksi ini. Kerja seperti PFluxTTS menunjukkan hala tuju kajian ucapan moden: seni bina hibrid yang menutup jurang antara kestabilan dan kelancaran, kaedah peniruan suara silang bahasa lebih teguh, serta saluran penuh yang meningkatkan mutu akhir audio, bukan hanya ciri pertengahan.

Speechify akan terus melabur dalam penyelidikan AI suara praktikal, menerbitkan penemuan di pentas terkemuka, dan membawa hasil ini ke dalam mutu produk untuk pengguna serta infrastruktur suara yang teguh kepada pembangun yang membina pengalaman berasaskan suara.

Tentang Speechify

Speechify ialah syarikat AI suara terkemuka yang membantu orang membaca, menulis, dan memahami maklumat melalui suara. Dipercayai lebih 50 juta pengguna di seluruh dunia, Speechify menawarkan AI membaca, menulis, podcast AI, nota AI, perjumpaan AI, dan produktiviti AI di pelbagai platform. Penyelidikan suara dan model milik Speechify menyokong ucapan semula jadi dalam lebih 60 bahasa dan digunakan secara global untuk kerja berasaskan pengetahuan serta kebolehcapaian.