為凍結的大型語言模型學習證據標註：HiLight 框架顯著提升長文本推理能力

HiLight 框架透過輕量化 Actor 在原始文本標註關鍵證據，協助凍結的語言模型進行精準推理。該方法採用強化學習且無須標註資料，顯著提升長文本任務表現，並展現卓越的跨模型轉移潛力。

Problem

大型語言模型（LLMs）在處理長文本或雜訊干擾的環境時，容易忽略埋藏其中的關鍵證據。傳統的輸入壓縮或改寫方法雖然能縮減資料，卻往往會導致關鍵資訊遺失或扭曲，進而損害模型的推理品質。

開發名為 HiLight 的證據強調框架，將「證據篩選」與「邏輯推理」解耦。該框架訓練一個輕量級的「強調代理（Emphasis Actor）」，僅在原始脈絡中插入極簡的標籤來凸顯關鍵語句。此過程採用弱監督決策與強化學習，僅需推理模型的任務獎勵，無需額外的證據標籤，且完全不需更動後端的推理模型。

在序列推薦與長文本問答測試中，HiLight 的表現一致優於強大的提示詞優化基準。研究進一步發現，所學得的強調策略具備「零樣本轉移」能力，可直接應用於不同系列、甚至是基於 API 的推理模型，顯示其捕捉到了通用的證據結構而非單一模型的過擬合特徵。

這項研究為提升「凍結模型」的處理能力提供了新路徑。透過非破壞性的標註方式，不僅保留了原始資料的完整性，更證明了證據強調策略具有跨架構的通用性，對於優化黑盒模型在複雜資訊環境下的決策品質具有高度價值。