Problem
隨著開源模型技術噴發,早期針對 LLaMA 類模型的活化值異常(outlier)分析已不足以涵蓋當前模型。低位元量化、活化值縮放及推理穩定性高度依賴活化值的動態範圍,但業界缺乏對現代多樣化架構(如 MoE、VLM)及不同訓練階段活化值上限的系統性理解。
Method
研究團隊建立統一評估管線,採用 5,000 個樣本的多領域語料庫,針對 8 個模型家族共 27 個檢查點進行實測。測試範圍涵蓋稠密模型、混合專家模型 (MoE) 及視覺語言模型,並在嵌入層、隱藏狀態、注意力機制及 SwiGLU 閘門等各環節同步擷取全局與層級的最大活化值。
Results
實驗發現活化值峰值在相同參數規模下可跨越四個數量級,例如 Gemma3-27B-it 高達約 7x10^5。MoE 模型展現出比同規模稠密模型低 14 到 23.4 倍的峰值,且殘差流(residual stream)在絕大多數模型中承載了全局最大值。此外,跨家族的比較結果打破了活化值隨規模單調增長的假設。
Significance
研究證實活化值量級是受模型家族、架構與訓練階段影響的特徵,而非單純的模型大小產物。這項發現強調模型發佈者應將最大活化值視為關鍵技術指標並主動揭露,以協助開發者優化低位元量化部署,有效降低推理重建誤差。