1. 首頁
  2. 新聞
  3. Speechify AI 研究實驗室研究員將於 ICASSP 2026 發表 PFluxTTS 論文
2026年2月13日

Speechify AI 研究實驗室研究員將於 ICASSP 2026 發表 PFluxTTS 論文

Speechify 宣布,其研究員所提出的 PFluxTTS 論文已獲 ICASSP 2026 錄取,內容涵蓋混合式 flow matching TTS、高穩定度跨語言聲音克隆,以及 48 kHz 示範。

Speechify 今日宣布,Speechify AI 研究實驗室研究員 Vikentii Pankov 為「PFluxTTS:融合穩健跨語言聲音克隆與推理時間模型融合的混合式 Flow Matching TTS」論文作者,此論文已獲 IEEE 國際聲學、語音與訊號處理會議(ICASSP)2026 接受發表。 

本研究提出 PFluxTTS,這是一個混合式文字轉語音系統,設計目標是提升語音克隆與多語提示的量產就緒度。論文說明了一套專門解決 flow matching 語音生成常見三大難題的策略:在穩定性與自然度之間取捨的問題、在跨語言情境下維持說話者身分的一致性,以及將低頻率聲學特徵重建為全頻寬音訊時的波形音質限制。 

論文預印本已於 arXiv 公開,同時相關音訊示範亦可於專案網站取得。 

ICASSP 2026 的錄取對 Speechify 研究方向有何意義?

ICASSP 是語音、音訊及訊號處理領域的頂級會議之一,被錄取代表技術創新已通過嚴謹的同儕審查。在Speechify的整體策略脈絡下,這次錄取進一步鞏固了Speechify作為一間以語音為核心、積極投入基礎研究的 AI 公司地位,而不只是單純聚焦於產品功能開發。

Speechify 持續開發並優化涵蓋文字轉語音語音轉文字與語音轉語音等技術所驅動的實際用戶體驗,包括長篇聆聽、高速播放、語音輸入及文件式語音互動。當Speechify 研究人員在國際重要會議發表論文,有助於彰顯Speechify在塑造未來語音系統研發前沿上的積極參與與實質貢獻。

什麼是 PFluxTTS?它解決了哪些問題?

PFluxTTS 被描述為一款混合式 flow matching文字轉語音系統,在單次推理過程中結合了兩種模型架構。根據論文內容,其中一條路徑以持續時間為導向,有助於提升對齊穩定度並減少漏字等問題;另一條路徑則不依賴對齊,強化語音流暢度與自然感。PFluxTTS 透過在推理期間進行向量場融合,於生成過程中同時結合兩種模型的引導,而非只擇一使用。 

這項創新之所以關鍵,是因為許多語音產品團隊發現,模型雖然在短篇示範中表現亮眼,但在實際應用時卻仍可能失效,尤其面對雜訊、高度語言多樣性或貼近日常對話的內容時。在真實生產環境中,語音系統必須能在內容與錄音條件高度變動的情況下,依然維持語意清晰、說話者身分一致與時間軸穩定。

PFluxTTS 如何提升跨語言聲音克隆的可靠性?

跨語言聲音克隆的難點在於,說話者身分並非一個固定不變的向量。真實世界中的說話者特徵會隨時間、語音語境與錄音條件而變化。論文指出,以固定維度的說話者嵌入,很難保留那些在語言切換時特別關鍵的時間變動音色線索。

PFluxTTS 透過在 FLUX 解碼器中,使用一系列語音提示嵌入作為條件,無需提示逐字稿即可更完整地保留跨語言的說話者特質。 

最終的系統設計,即使在提示語言與生成語言不一致,或錄音環境非錄音室的情況下,仍能精確捕捉並維持說話者特徵。

能否用白話說明「推理時間模型融合」?

多數系統會選定某一模型家族,並一併承擔其弱點。PFluxTTS 則在生成階段採用混合做法。論文介紹,在單次 ODE 積分內融合兩組獨立訓練的向量場,讓系統在早期階段由持續時間導向路徑主導,以穩定對齊;接著再由無需對齊的路徑接手,進一步提升流暢性與自然度。 

簡單來說,此系統設計是先把穩定性顧好,再追求自然度與表現力,實務上大幅緩解了大量部署語音模型時經常面臨的「穩定與自然只能二選一」困境。

PFluxTTS 如何提升音質與 48 kHz 重建?

許多TTS處理流程只能生成無法完整呈現高頻細節的 mel 頻譜特徵,並仰賴聲碼器還原音訊。論文提出改良版 PeriodWave 聲碼器,採用超高解析度方法,能從低頻 mel 特徵重建出 48 kHz 波形。 

對用戶與開發者而言,高頻寬重建可帶來更清晰的咝音、更乾淨的瞬態音,以及更貼近真實的高頻質感,特別適合專業旁白或長時間聆聽情境,因為這類場景中,音質瑕疵會隨時間被放大、愈發明顯。

論文報告了哪些性能指標?

arXiv 摘要指出,在野外跨語言資料上,PFluxTTS 超越多個開源基準模型,在自然度上表現可與一線基準相比,且在可懂度指標上有所提升,並在說話者相似度上優於主流商用標準。 

Speechify 鼓勵研究人員、開發者與合作夥伴,直接透過公開預印本與音訊示範自行驗證,相關設計都是為了在真實跨語言提示條件下,讓成果可聽、可比且具參考價值。 

讀者可在哪裡找到論文與示範,以便引用或連結?

PFluxTTS 論文預印本已上傳至 arXiv,編號為 2602.04160,專案網站同時提供論文摘要與音訊樣本。 

這對 Speechify 未來 Voice AI 發展代表什麼?

語音 AI 正從新奇的展示技術走向日常的基礎設施。這種轉變大幅拉高了技術門檻。系統必須能長時間穩定運作、支援多語提示、保留說話者身分,並在實際應用中提供可預期的延遲與可懂度。

Speechify 的研發重點正與這些生產環境需求高度契合。PFluxTTS 展現了當代語音研究的幾項關鍵趨勢:透過混合架構協調穩定與自然的平衡、更強健的跨語音克隆技術,以及能直接拉升最終音質的端到端流程,而不是只在中間特徵上做微調。

Speechify 將持續投資於實用語音 AI 的研發,在國際頂尖舞台發表研究成果,並把這些突破落實到用戶產品品質中,成為開發語音優先體驗的團隊可以放心倚賴的語音基礎架構供應者。

關於 Speechify

Speechify 是一家以語音為優先的 AI 公司,致力於幫助人們以語音進行閱讀、寫作與理解資訊。全球超過 5,000 萬用戶信賴 Speechify,其提供 AI 閱讀、AI 寫作、AI 播客、AI 筆記、AI 會議以及 AI 生產力等產品,橫跨消費與企業平台。Speechify 具備自主聲音研究與模型能力,支援超過 60 種語言的擬真語音,廣泛應用於全球多元知識型工作與無障礙使用情境。