Problem
大型語言模型(LLMs)在處理長文本或雜訊干擾的環境時,容易忽略埋藏其中的關鍵證據。傳統的輸入壓縮或改寫方法雖然能縮減資料,卻往往會導致關鍵資訊遺失或扭曲,進而損害模型的推理品質。
Method
開發名為 HiLight 的證據強調框架,將「證據篩選」與「邏輯推理」解耦。該框架訓練一個輕量級的「強調代理(Emphasis Actor)」,僅在原始脈絡中插入極簡的標籤來凸顯關鍵語句。此過程採用弱監督決策與強化學習,僅需推理模型的任務獎勵,無需額外的證據標籤,且完全不需更動後端的推理模型。
Results
在序列推薦與長文本問答測試中,HiLight 的表現一致優於強大的提示詞優化基準。研究進一步發現,所學得的強調策略具備「零樣本轉移」能力,可直接應用於不同系列、甚至是基於 API 的推理模型,顯示其捕捉到了通用的證據結構而非單一模型的過擬合特徵。
Significance
這項研究為提升「凍結模型」的處理能力提供了新路徑。透過非破壞性的標註方式,不僅保留了原始資料的完整性,更證明了證據強調策略具有跨架構的通用性,對於優化黑盒模型在複雜資訊環境下的決策品質具有高度價值。