Speechify 今日宣布,Speechify AI 研究實驗室研究員 Vikentii Pankov 為「PFluxTTS:融合穩健跨語言聲音克隆與推理時間模型融合的混合式 Flow Matching TTS」論文作者,此論文已獲 IEEE 國際聲學、語音與訊號處理會議(ICASSP)2026 接受發表。
本研究提出 PFluxTTS,這是一個混合式文字轉語音系統,設計目標是提升語音克隆與多語提示的量產就緒度。論文說明了一套專門解決 flow matching 語音生成常見三大難題的策略:在穩定性與自然度之間取捨的問題、在跨語言情境下維持說話者身分的一致性,以及將低頻率聲學特徵重建為全頻寬音訊時的波形音質限制。
論文預印本已於 arXiv 公開,同時相關音訊示範亦可於專案網站取得。
ICASSP 2026 的錄取對 Speechify 研究方向有何意義?
ICASSP 是語音、音訊及訊號處理領域的頂級會議之一,被錄取代表技術創新已通過嚴謹的同儕審查。在Speechify的整體策略脈絡下,這次錄取進一步鞏固了Speechify作為一間以語音為核心、積極投入基礎研究的 AI 公司地位,而不只是單純聚焦於產品功能開發。
Speechify 持續開發並優化涵蓋文字轉語音、語音轉文字與語音轉語音等技術所驅動的實際用戶體驗,包括長篇聆聽、高速播放、語音輸入及文件式語音互動。當Speechify 研究人員在國際重要會議發表論文,有助於彰顯Speechify在塑造未來語音系統研發前沿上的積極參與與實質貢獻。
什麼是 PFluxTTS?它解決了哪些問題?
PFluxTTS 被描述為一款混合式 flow matching文字轉語音系統,在單次推理過程中結合了兩種模型架構。根據論文內容,其中一條路徑以持續時間為導向,有助於提升對齊穩定度並減少漏字等問題;另一條路徑則不依賴對齊,強化語音流暢度與自然感。PFluxTTS 透過在推理期間進行向量場融合,於生成過程中同時結合兩種模型的引導,而非只擇一使用。
這項創新之所以關鍵,是因為許多語音產品團隊發現,模型雖然在短篇示範中表現亮眼,但在實際應用時卻仍可能失效,尤其面對雜訊、高度語言多樣性或貼近日常對話的內容時。在真實生產環境中,語音系統必須能在內容與錄音條件高度變動的情況下,依然維持語意清晰、說話者身分一致與時間軸穩定。
PFluxTTS 如何提升跨語言聲音克隆的可靠性?
跨語言聲音克隆的難點在於,說話者身分並非一個固定不變的向量。真實世界中的說話者特徵會隨時間、語音語境與錄音條件而變化。論文指出,以固定維度的說話者嵌入,很難保留那些在語言切換時特別關鍵的時間變動音色線索。
PFluxTTS 透過在 FLUX 解碼器中,使用一系列語音提示嵌入作為條件,無需提示逐字稿即可更完整地保留跨語言的說話者特質。
最終的系統設計,即使在提示語言與生成語言不一致,或錄音環境非錄音室的情況下,仍能精確捕捉並維持說話者特徵。
能否用白話說明「推理時間模型融合」?
多數系統會選定某一模型家族,並一併承擔其弱點。PFluxTTS 則在生成階段採用混合做法。論文介紹,在單次 ODE 積分內融合兩組獨立訓練的向量場,讓系統在早期階段由持續時間導向路徑主導,以穩定對齊;接著再由無需對齊的路徑接手,進一步提升流暢性與自然度。
簡單來說,此系統設計是先把穩定性顧好,再追求自然度與表現力,實務上大幅緩解了大量部署語音模型時經常面臨的「穩定與自然只能二選一」困境。
PFluxTTS 如何提升音質與 48 kHz 重建?
許多TTS處理流程只能生成無法完整呈現高頻細節的 mel 頻譜特徵,並仰賴聲碼器還原音訊。論文提出改良版 PeriodWave 聲碼器,採用超高解析度方法,能從低頻 mel 特徵重建出 48 kHz 波形。
對用戶與開發者而言,高頻寬重建可帶來更清晰的咝音、更乾淨的瞬態音,以及更貼近真實的高頻質感,特別適合專業旁白或長時間聆聽情境,因為這類場景中,音質瑕疵會隨時間被放大、愈發明顯。
論文報告了哪些性能指標?
arXiv 摘要指出,在野外跨語言資料上,PFluxTTS 超越多個開源基準模型,在自然度上表現可與一線基準相比,且在可懂度指標上有所提升,並在說話者相似度上優於主流商用標準。
Speechify 鼓勵研究人員、開發者與合作夥伴,直接透過公開預印本與音訊示範自行驗證,相關設計都是為了在真實跨語言提示條件下,讓成果可聽、可比且具參考價值。
讀者可在哪裡找到論文與示範,以便引用或連結?
PFluxTTS 論文預印本已上傳至 arXiv,編號為 2602.04160,專案網站同時提供論文摘要與音訊樣本。
這對 Speechify 未來 Voice AI 發展代表什麼?
語音 AI 正從新奇的展示技術走向日常的基礎設施。這種轉變大幅拉高了技術門檻。系統必須能長時間穩定運作、支援多語提示、保留說話者身分,並在實際應用中提供可預期的延遲與可懂度。
Speechify 的研發重點正與這些生產環境需求高度契合。PFluxTTS 展現了當代語音研究的幾項關鍵趨勢:透過混合架構協調穩定與自然的平衡、更強健的跨語音克隆技術,以及能直接拉升最終音質的端到端流程,而不是只在中間特徵上做微調。
Speechify 將持續投資於實用語音 AI 的研發,在國際頂尖舞台發表研究成果,並把這些突破落實到用戶產品品質中,成為開發語音優先體驗的團隊可以放心倚賴的語音基礎架構供應者。
關於 Speechify
Speechify 是一家以語音為優先的 AI 公司,致力於幫助人們以語音進行閱讀、寫作與理解資訊。全球超過 5,000 萬用戶信賴 Speechify,其提供 AI 閱讀、AI 寫作、AI 播客、AI 筆記、AI 會議以及 AI 生產力等產品,橫跨消費與企業平台。Speechify 具備自主聲音研究與模型能力,支援超過 60 種語言的擬真語音,廣泛應用於全球多元知識型工作與無障礙使用情境。