Problem

現有的大型語言模型導向技術(Steering Methods)多作用於殘差流,在高強度干預下常導致模型輸出連貫性惡化或品質下降,且模型拒絕有害請求的底層機制在學術界仍缺乏深入理解。

Method

提出「對比神經元歸因」(CNA),此方法無需梯度運算或額外輔助訓練,僅透過前向傳播即可辨識出 MLP 層中辨別「有害」與「良性」提示詞最關鍵的 0.1% 神經元。

Results

在 Llama 與 Qwen 系列模型(1B 至 72B)的實驗顯示,消融 CNA 鎖定的線路能將標準越獄基準測試的拒絕率降低 50% 以上,且在任何干預強度下都能維持生成的流暢性。研究亦發現,基底模型雖具備相似的神經元結構,但行為轉向的機制僅在經過對齊微調的模型中才會被啟動。

Significance

研究證實神經元層級的干預能實現可靠的行為調控,並克服傳統方法在生成品質上的權衡(Trade-offs)。更重要的是,研究揭示了對齊微調如何將預訓練模型中既有的辨別結構,轉化為稀疏且可精準調控的「拒絕閘門」。