Problem

互動式系統中的全串流文字轉語音(TTS)技術,必須在文字逐步接收的過程中以極低延遲開始發聲,並同時維持對語音輸出的高度控制力,確保系統能即時應對各種動態變化。

Method

提出 VoXtream2 零樣本全串流模型,將持續時間狀態的分佈匹配機制與跨條件訊號的無分類器引導(Classifier-free guidance)技術結合,以提升控制力與合成品質。此外,利用提示文字遮罩技術實現無文字音訊提示,完全免除了準備提示音檔逐字稿的需求。

Results

儘管模型體積較小且訓練資料較少,VoXtream2 在標準基準與專用語速測試集中,主客觀表現依然展現強大競爭力。在全串流模式下,於消費級 GPU 上的首封包延遲僅需 74 毫秒,且運行速度達即時的四倍。

Significance

成功克服了語音生成中途無法即時動態調整語速的技術限制。極低的首封包延遲與免逐字稿的音訊提示優勢,不僅降低硬體門檻,更大幅提升實務應用價值,為即時語音互動系統帶來具備高度彈性與效能的解決方案。