實現極低延遲與動態語速控制：VoXtream2 全串流文字轉語音技術解析

VoXtream2 提出具備動態語速控制的零樣本全串流文字轉語音模型。它能在文字逐步輸入時維持極低延遲發聲，並支援中途即時調整語速，以輕量化架構展現卓越的合成效能。

Problem

互動式系統中的全串流文字轉語音（TTS）技術，必須在文字逐步接收的過程中以極低延遲開始發聲，並同時維持對語音輸出的高度控制力，確保系統能即時應對各種動態變化。

提出 VoXtream2 零樣本全串流模型，將持續時間狀態的分佈匹配機制與跨條件訊號的無分類器引導（Classifier-free guidance）技術結合，以提升控制力與合成品質。此外，利用提示文字遮罩技術實現無文字音訊提示，完全免除了準備提示音檔逐字稿的需求。

儘管模型體積較小且訓練資料較少，VoXtream2 在標準基準與專用語速測試集中，主客觀表現依然展現強大競爭力。在全串流模式下，於消費級 GPU 上的首封包延遲僅需 74 毫秒，且運行速度達即時的四倍。

成功克服了語音生成中途無法即時動態調整語速的技術限制。極低的首封包延遲與免逐字稿的音訊提示優勢，不僅降低硬體門檻，更大幅提升實務應用價值，為即時語音互動系統帶來具備高度彈性與效能的解決方案。