Peneliti Speechify AI Research Lab Loloskan Makalah PFluxTTS di ICASSP 2026

Speechify hari ini mengumumkan bahwa Speechify AI Research Lab, lewat penelitinya Vikentii Pankov, adalah penulis “PFluxTTS: Hybrid Flow Matching TTS with Robust Cross Lingual Voice Cloning and Inference Time Model Fusion,” makalah yang diterima di IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2026.

Makalah ini memperkenalkan PFluxTTS, sistem text to speech hybrid yang dirancang untuk meningkatkan kesiapan produksi cloning suara dan prompt multibahasa. Makalah memaparkan pendekatan untuk tiga celah pada speech generation flow matching: tradeoff antara stabilitas dan naturalitas, tantangan menjaga identitas suara di banyak bahasa, serta kendala kualitas ketika membangun ulang audio penuh dari fitur akustik bitrate rendah.

Pracetak makalah ini tersedia publik di arXiv, dan demo audio bisa diakses di situs proyek.

Apa arti diterimanya ICASSP 2026 untuk arah riset Speechify?

ICASSP adalah salah satu konferensi terkemuka untuk riset ucapan, audio, dan sinyal, dan penerimaan ini menandakan pengakuan peer review atas kontribusi teknis yang mendorong teknologi terkini. Dalam konteks strategi luas Speechify, hal ini memperkuat posisi Speechify sebagai perusahaan AI fokus suara yang berinvestasi pada penelitian fundamental, bukan sekadar fitur produk.

Speechify membangun dan mengasah teknologi suara untuk text to speech, speech to text, dan workflow suara-ke-suara yang menopang pengalaman nyata pengguna: seperti mendengarkan panjang, playback cepat, dikdasi, dan interaksi suara berbasis dokumen. Saat peneliti Speechify mempublikasi riset yang diterima di konferensi besar, itu menegaskan bahwa Speechify ikut membentuk masa depan teknologi suara beberapa tahun ke depan.

Apa itu PFluxTTS dan masalah apa yang diselesaikan?

PFluxTTS adalah sistem hybrid flow matching text to speech yang menggabungkan dua model dalam proses inferensi tunggal. Satu jalur dipandu durasi, untuk meningkatkan stabilitas alignment dan mengurangi masalah seperti kata hilang. Jalur lain tanpa alignment, demi kelancaran dan naturalitas. PFluxTTS menggabungkan keduanya lewat fusion vector field saat inferensi, jadi sistem memadukan panduan dua model sepanjang proses, bukan memilih salah satu saja.

Hal ini penting karena banyak tim pengembang produk suara mendapati model yang terdengar baik saat demo singkat justru kedodoran dalam workflow nyata—terutama untuk prompt berisik, lintas bahasa, atau percakapan. Di produksi, sistem suara harus jelas, konsisten menjaga identitas, dan stabil di beragam konten serta kondisi rekaman.

Bagaimana PFluxTTS meningkatkan keandalan cloning suara lintas bahasa?

Cloning suara lintas bahasa itu sulit karena identitas suara bukan sekadar vektor statis. Karakter speaker berubah seiring waktu, di berbagai konteks fonetik, serta kondisi rekaman. Makalah mencatat, embedding speaker berdimensi tetap bisa melepas ciri timbre yang berubah sepanjang waktu—padahal ini penting ketika bahasa prompt berbeda dari bahasa target.

PFluxTTS mengatasi ini dengan conditioning pada urutan embedding prompt dalam decoder berbasis FLUX, agar ciri suara lebih terjaga lintas bahasa, tanpa perlu transkrip prompt.

Hasilnya, sistem dapat menjaga karakter suara tetap serupa sang pembicara, meskipun prompt dan keluaran akhirnya memakai bahasa berbeda, atau prompt direkam di luar studio.

Apa arti “inference time model fusion” dalam bahasa sederhana?

Kebanyakan sistem hanya memilih satu model dan menerima kekurangannya. PFluxTTS mengambil pendekatan hybrid saat generasi. Makalah menjelaskan: dua vector field dilatih terpisah lalu digabung saat integrasi ODE, dengan urutan awal lebih menekankan jalur stabil, kemudian membiarkan jalur tanpa alignment mengambil alih agar lebih alami.

Singkatnya, sistem didesain untuk mulai aman & stabil lalu dituntaskan dengan ekspresif & natural—cara praktis mengurangi kompromi “stabil atau natural” yang kerap muncul saat deployment model suara skala besar.

Bagaimana PFluxTTS menangani kualitas audio dan rekonstruksi 48 kHz?

Banyak pipeline TTS menghasilkan fitur mel spectrogram dengan resolusi yang belum menangkap detail frekuensi tinggi penuh—lalu memakai vocoder untuk merekonstruksi audio. Makalah memperkenalkan vocoder PeriodWave yang dimodifikasi dengan pendekatan super resolution, sehingga dapat menghasilkan audio 48 kHz dari fitur mel beresolusi rendah.

Bagi pengguna dan developer, rekonstruksi bandwidth lebih tinggi berarti sibilan terdengar jelas, transien bersih, dan tekstur frekuensi tinggi lebih realistis—terutama untuk narasi profesional atau sesi dengar panjang, di mana artefak makin terasa.

Apa klaim performa yang dilaporkan makalah?

Abstrak arXiv melaporkan bahwa, untuk data lintas bahasa di alam liar, PFluxTTS mengungguli sejumlah baseline open source dan mencapai hasil setara baseline unggulan dalam naturalitas, dengan peningkatan metrik kejelasan—serta kemiripan speaker lebih tinggi dibanding referensi komersial besar.

Speechify mengajak peneliti, pengembang, serta mitra untuk mengevaluasi langsung lewat pracetak & demo audio, agar hasilnya betul-betul terdengar pada skenario pemakaian lintas bahasa di dunia nyata.

Di mana pembaca bisa menemukan makalah dan demo untuk dikutip dan ditautkan?

Pracetak PFluxTTS tersedia di arXiv dengan ID 2602.04160. Situs proyek memuat ringkasan dan contoh audionya.

Mengapa ini penting untuk masa depan Voice AI Speechify?

Voice AI kini bukan sekadar demo, melainkan infrastruktur harian. Standarnya naik: sistem harus tetap stabil untuk sesi panjang, tangani prompt multibahasa, jaga identitas suara, dan merespons cepat & jelas di dunia nyata.

Speechify menekankan riset untuk memenuhi kebutuhan produksi. Karya seperti PFluxTTS mencerminkan arah riset speech modern: arsitektur hybrid yang menjembatani celah stabilitas-alamiah, cloning lebih tangguh lintas bahasa, serta pipeline ujung-ke-ujung yang memprioritaskan kualitas audio akhir, bukan sekadar fitur menengah.

Speechify akan terus berinvestasi dalam riset untuk AI suara yang praktis, mempublikasikannya di venue terkemuka, lalu mewujudkan hasilnya demi mutu produk bagi pengguna dan infrastruktur suara andal bagi developer.

Tentang Speechify

Speechify adalah perusahaan AI fokus suara yang membantu orang membaca, menulis, dan memahami informasi lewat suara. Dipercaya lebih dari 50 juta pengguna global, Speechify mendukung AI reading, AI writing, AI podcast, AI notetaking, AI meetings, dan AI produktivitas untuk konsumen dan enterprise. Speechify melalui riset dan model suara sendiri mendukung percakapan mirip manusia di lebih dari 60 bahasa dan telah digunakan luas untuk pekerjaan pengetahuan & aksesibilitas.