突破預訓練資料比例調優瓶頸：OptiMer 以分配向量合併打造更高效的語言模型持續訓練

本研究提出 OptiMer，將資料比例選擇從訓練中解耦，透過後驗合併分配向量與貝氏優化，以大幅降低的成本達成優於傳統資料混合的持續預訓練效果。

Problem

在大型語言模型（LLM）的持續預訓練（CPT）過程中，各類資料集的混合比例是極難調校的超參數。傳統做法必須在訓練開始前固定比例，一旦設定不佳，將導致數週算力資源的浪費。

提出名為 OptiMer 的新方法，將比例選擇與模型訓練解耦。此方法先為每個資料集單獨訓練模型並提取代表參數位移的「分配向量」，隨後透過貝氏優化（Bayesian optimization）在後驗階段搜尋最優的權重組合。

針對 Gemma 3 27B 跨語系（中、日）與領域（數學、程式碼）的實驗顯示，OptiMer 的表現一致優於資料混合與模型平均基線，且搜尋成本降低了 15 至 35 倍。此外，同一個向量池可在不重新訓練的情況下，針對新目標重新優化並產出客製化模型。

本研究將原本屬於訓練前的決策轉變為訓練後的向量優化過程，為持續預訓練建立了一種更具彈性且經濟的新範式，讓模型開發者能以極低成本動態調整模型能力。