精準鎖定 0.1% 神經元：開發 CNA 對比搜尋技術實現無損的大語言模型行為轉向

本研究提出 CNA 技術，僅需前向傳播即可鎖定關鍵神經元。與傳統殘差流方法不同，此技術能在大幅降低模型拒絕率的同時，完全保持生成的流暢度，不受干預強度影響。

Problem

現有的大型語言模型導向技術（Steering Methods）多作用於殘差流，在高強度干預下常導致模型輸出連貫性惡化或品質下降，且模型拒絕有害請求的底層機制在學術界仍缺乏深入理解。

提出「對比神經元歸因」（CNA），此方法無需梯度運算或額外輔助訓練，僅透過前向傳播即可辨識出 MLP 層中辨別「有害」與「良性」提示詞最關鍵的 0.1% 神經元。

在 Llama 與 Qwen 系列模型（1B 至 72B）的實驗顯示，消融 CNA 鎖定的線路能將標準越獄基準測試的拒絕率降低 50% 以上，且在任何干預強度下都能維持生成的流暢性。研究亦發現，基底模型雖具備相似的神經元結構，但行為轉向的機制僅在經過對齊微調的模型中才會被啟動。

研究證實神經元層級的干預能實現可靠的行為調控，並克服傳統方法在生成品質上的權衡（Trade-offs）。更重要的是，研究揭示了對齊微調如何將預訓練模型中既有的辨別結構，轉化為稀疏且可精準調控的「拒絕閘門」。