Problem

在大型語言模型(LLM)的持續預訓練(CPT)過程中,各類資料集的混合比例是極難調校的超參數。傳統做法必須在訓練開始前固定比例,一旦設定不佳,將導致數週算力資源的浪費。

Method

提出名為 OptiMer 的新方法,將比例選擇與模型訓練解耦。此方法先為每個資料集單獨訓練模型並提取代表參數位移的「分配向量」,隨後透過貝氏優化(Bayesian optimization)在後驗階段搜尋最優的權重組合。

Results

針對 Gemma 3 27B 跨語系(中、日)與領域(數學、程式碼)的實驗顯示,OptiMer 的表現一致優於資料混合與模型平均基線,且搜尋成本降低了 15 至 35 倍。此外,同一個向量池可在不重新訓練的情況下,針對新目標重新優化並產出客製化模型。

Significance

本研究將原本屬於訓練前的決策轉變為訓練後的向量優化過程,為持續預訓練建立了一種更具彈性且經濟的新範式,讓模型開發者能以極低成本動態調整模型能力。