Problem
現有開源口語對話模型在智慧程度與語音表現力上仍未達理想。雖然強化學習在文字領域效果顯著,但直接應用於語音模型時,會面臨稀疏偏好監督與高密度語音生成之間的更新衝突,導致參數更新不穩定,難以同步優化對話內容與聲音質感。
Method
開發名為 WavAlign 的「模態感知適應性後訓練」技術。該架構將偏好學習的更新限制在語義頻道,並透過明確的聲學錨點優化發音行為。此外,系統能根據模型生成過程的統計數據,動態調節語義與聲學訓練的混合比例,有效規避不可靠的偏好梯度影響。
Results
在多項口語對話基準測試與不同主流架構中,WavAlign 均展現出一致的改進效果。實驗結果顯示,模型不僅在語義回答的邏輯品質上有感提升,語音生成的表現力與抑揚頓挫也變得更加自然且豐富。
Significance
此研究為口語對話模型導入強化學習提供了一套實作範本,成功解決了多模態模型在後訓練階段的技術瓶頸。這對於打造更智慧、更具情感感染力的 AI 語音互動系統與虛擬助理具有關鍵的推動作用。