現代大型語言模型「激發峰值」深度實測：跨架構與訓練階段的活化值動態範圍分析

本研究針對 27 個開源 LLM 進行統一測量，發現活化值最大值受架構與訓練階段顯著影響而非僅關乎模型規模，並揭示 MoE 模型具有較低峰值等關鍵特性，為低位元量化部署提供核心參考。

Problem

隨著開源模型技術噴發，早期針對 LLaMA 類模型的活化值異常（outlier）分析已不足以涵蓋當前模型。低位元量化、活化值縮放及推理穩定性高度依賴活化值的動態範圍，但業界缺乏對現代多樣化架構（如 MoE、VLM）及不同訓練階段活化值上限的系統性理解。

Method

研究團隊建立統一評估管線，採用 5,000 個樣本的多領域語料庫，針對 8 個模型家族共 27 個檢查點進行實測。測試範圍涵蓋稠密模型、混合專家模型 (MoE) 及視覺語言模型，並在嵌入層、隱藏狀態、注意力機制及 SwiGLU 閘門等各環節同步擷取全局與層級的最大活化值。

Results

實驗發現活化值峰值在相同參數規模下可跨越四個數量級，例如 Gemma3-27B-it 高達約 7x10^5。MoE 模型展現出比同規模稠密模型低 14 到 23.4 倍的峰值，且殘差流（residual stream）在絕大多數模型中承載了全局最大值。此外，跨家族的比較結果打破了活化值隨規模單調增長的假設。

Significance

研究證實活化值量級是受模型家族、架構與訓練階段影響的特徵，而非單純的模型大小產物。這項發現強調模型發佈者應將最大活化值視為關鍵技術指標並主動揭露，以協助開發者優化低位元量化部署，有效降低推理重建誤差。