Problem
現有自定義政策防護網(Guardrails)面臨兩難:通用模型不夠精準,而直接提示大型語言模型則推論成本昂貴且邊界案例處理不穩,訓練專用分類器則需要耗費極高的人力標註成本。
Method
開發 BARRED 框架,將任務領域分解為多個維度以確保場景覆蓋面,並採用多代理人辯論機制進行標籤驗證與反射修正,進而生成高保真度的合成語料庫,用於微調輕量化的小型語言模型。
Results
實驗證明,使用 BARRED 合成資料微調的小型模型,其效能一致優於頂尖商用推理模型與現有的專業防護模型。消融實驗進一步確認,維度分解與辯論驗證是提升資料多樣性與標籤準確度的關鍵因素。
Significance
該框架徹底消除了對大規模人工標註的依賴,為開發者提供了一種具備高度可擴展性、高準確度且符合成本效益的自定義安全過濾解決方案,讓專用防護網的部署更加普及。