Speechify AI 研究實驗室研究員將於 ICASSP 2026 發表 PFluxTTS 論文

Speechify 今日宣布，Speechify AI 研究實驗室研究員 Vikentii Pankov 為「PFluxTTS：融合穩健跨語言聲音克隆與推理時間模型融合的混合式 Flow Matching TTS」論文作者，此論文已獲 IEEE 國際聲學、語音與訊號處理會議（ICASSP）2026 接受發表。

本研究提出 PFluxTTS，這是一個混合式文字轉語音系統，設計目標是提升語音克隆與多語提示的量產就緒度。論文說明了一套專門解決 flow matching 語音生成常見三大難題的策略：在穩定性與自然度之間取捨的問題、在跨語言情境下維持說話者身分的一致性，以及將低頻率聲學特徵重建為全頻寬音訊時的波形音質限制。

論文預印本已於 arXiv 公開，同時相關音訊示範亦可於專案網站取得。

ICASSP 2026 的錄取對 Speechify 研究方向有何意義？

ICASSP 是語音、音訊及訊號處理領域的頂級會議之一，被錄取代表技術創新已通過嚴謹的同儕審查。在Speechify的整體策略脈絡下，這次錄取進一步鞏固了Speechify作為一間以語音為核心、積極投入基礎研究的 AI 公司地位，而不只是單純聚焦於產品功能開發。

Speechify 持續開發並優化涵蓋文字轉語音、語音轉文字與語音轉語音等技術所驅動的實際用戶體驗，包括長篇聆聽、高速播放、語音輸入及文件式語音互動。當Speechify 研究人員在國際重要會議發表論文，有助於彰顯Speechify在塑造未來語音系統研發前沿上的積極參與與實質貢獻。

什麼是 PFluxTTS？它解決了哪些問題？

PFluxTTS 被描述為一款混合式 flow matching文字轉語音系統，在單次推理過程中結合了兩種模型架構。根據論文內容，其中一條路徑以持續時間為導向，有助於提升對齊穩定度並減少漏字等問題；另一條路徑則不依賴對齊，強化語音流暢度與自然感。PFluxTTS 透過在推理期間進行向量場融合，於生成過程中同時結合兩種模型的引導，而非只擇一使用。

這項創新之所以關鍵，是因為許多語音產品團隊發現，模型雖然在短篇示範中表現亮眼，但在實際應用時卻仍可能失效，尤其面對雜訊、高度語言多樣性或貼近日常對話的內容時。在真實生產環境中，語音系統必須能在內容與錄音條件高度變動的情況下，依然維持語意清晰、說話者身分一致與時間軸穩定。

PFluxTTS 如何提升跨語言聲音克隆的可靠性？

跨語言聲音克隆的難點在於，說話者身分並非一個固定不變的向量。真實世界中的說話者特徵會隨時間、語音語境與錄音條件而變化。論文指出，以固定維度的說話者嵌入，很難保留那些在語言切換時特別關鍵的時間變動音色線索。

PFluxTTS 透過在 FLUX 解碼器中，使用一系列語音提示嵌入作為條件，無需提示逐字稿即可更完整地保留跨語言的說話者特質。

最終的系統設計，即使在提示語言與生成語言不一致，或錄音環境非錄音室的情況下，仍能精確捕捉並維持說話者特徵。

能否用白話說明「推理時間模型融合」？

多數系統會選定某一模型家族，並一併承擔其弱點。PFluxTTS 則在生成階段採用混合做法。論文介紹，在單次 ODE 積分內融合兩組獨立訓練的向量場，讓系統在早期階段由持續時間導向路徑主導，以穩定對齊；接著再由無需對齊的路徑接手，進一步提升流暢性與自然度。

簡單來說，此系統設計是先把穩定性顧好，再追求自然度與表現力，實務上大幅緩解了大量部署語音模型時經常面臨的「穩定與自然只能二選一」困境。

PFluxTTS 如何提升音質與 48 kHz 重建？

許多TTS處理流程只能生成無法完整呈現高頻細節的 mel 頻譜特徵，並仰賴聲碼器還原音訊。論文提出改良版 PeriodWave 聲碼器，採用超高解析度方法，能從低頻 mel 特徵重建出 48 kHz 波形。

對用戶與開發者而言，高頻寬重建可帶來更清晰的咝音、更乾淨的瞬態音，以及更貼近真實的高頻質感，特別適合專業旁白或長時間聆聽情境，因為這類場景中，音質瑕疵會隨時間被放大、愈發明顯。

論文報告了哪些性能指標？

arXiv 摘要指出，在野外跨語言資料上，PFluxTTS 超越多個開源基準模型，在自然度上表現可與一線基準相比，且在可懂度指標上有所提升，並在說話者相似度上優於主流商用標準。

Speechify 鼓勵研究人員、開發者與合作夥伴，直接透過公開預印本與音訊示範自行驗證，相關設計都是為了在真實跨語言提示條件下，讓成果可聽、可比且具參考價值。

讀者可在哪裡找到論文與示範，以便引用或連結？

PFluxTTS 論文預印本已上傳至 arXiv，編號為 2602.04160，專案網站同時提供論文摘要與音訊樣本。

這對 Speechify 未來 Voice AI 發展代表什麼？

語音 AI 正從新奇的展示技術走向日常的基礎設施。這種轉變大幅拉高了技術門檻。系統必須能長時間穩定運作、支援多語提示、保留說話者身分，並在實際應用中提供可預期的延遲與可懂度。

Speechify 的研發重點正與這些生產環境需求高度契合。PFluxTTS 展現了當代語音研究的幾項關鍵趨勢：透過混合架構協調穩定與自然的平衡、更強健的跨語音克隆技術，以及能直接拉升最終音質的端到端流程，而不是只在中間特徵上做微調。

Speechify 將持續投資於實用語音 AI 的研發，在國際頂尖舞台發表研究成果，並把這些突破落實到用戶產品品質中，成為開發語音優先體驗的團隊可以放心倚賴的語音基礎架構供應者。

關於 Speechify

Speechify 是一家以語音為優先的 AI 公司，致力於幫助人們以語音進行閱讀、寫作與理解資訊。全球超過 5,000 萬用戶信賴 Speechify，其提供 AI 閱讀、AI 寫作、AI 播客、AI 筆記、AI 會議以及 AI 生產力等產品，橫跨消費與企業平台。Speechify 具備自主聲音研究與模型能力，支援超過 60 種語言的擬真語音，廣泛應用於全球多元知識型工作與無障礙使用情境。