WavAlign：適應性後訓練技術，賦予口語對話模型更深層的智慧與豐富語氣

本研究提出 WavAlign 後訓練方法，解決口語對話模型中強化學習難以應用的困境，透過語義與聲學特性的動態調節，顯著增強語音生成的人性化表現與邏輯能力。

Problem

現有開源口語對話模型在智慧程度與語音表現力上仍未達理想。雖然強化學習在文字領域效果顯著，但直接應用於語音模型時，會面臨稀疏偏好監督與高密度語音生成之間的更新衝突，導致參數更新不穩定，難以同步優化對話內容與聲音質感。

開發名為 WavAlign 的「模態感知適應性後訓練」技術。該架構將偏好學習的更新限制在語義頻道，並透過明確的聲學錨點優化發音行為。此外，系統能根據模型生成過程的統計數據，動態調節語義與聲學訓練的混合比例，有效規避不可靠的偏好梯度影響。

在多項口語對話基準測試與不同主流架構中，WavAlign 均展現出一致的改進效果。實驗結果顯示，模型不僅在語義回答的邏輯品質上有感提升，語音生成的表現力與抑揚頓挫也變得更加自然且豐富。

此研究為口語對話模型導入強化學習提供了一套實作範本，成功解決了多模態模型在後訓練階段的技術瓶頸。這對於打造更智慧、更具情感感染力的 AI 語音互動系統與虛擬助理具有關鍵的推動作用。