BARRED 框架：利用非對稱辯論生成合成資料，高效建構自定義語言模型安全防護網

BARRED 框架結合維度分解與多代理人辯論，僅需少量無標註範例即可生成高品質合成訓練資料，使微調後的小型模型在自定義原則過濾效能上超越頂尖商用模型。

Problem

現有自定義政策防護網（Guardrails）面臨兩難：通用模型不夠精準，而直接提示大型語言模型則推論成本昂貴且邊界案例處理不穩，訓練專用分類器則需要耗費極高的人力標註成本。

開發 BARRED 框架，將任務領域分解為多個維度以確保場景覆蓋面，並採用多代理人辯論機制進行標籤驗證與反射修正，進而生成高保真度的合成語料庫，用於微調輕量化的小型語言模型。

實驗證明，使用 BARRED 合成資料微調的小型模型，其效能一致優於頂尖商用推理模型與現有的專業防護模型。消融實驗進一步確認，維度分解與辯論驗證是提升資料多樣性與標籤準確度的關鍵因素。

該框架徹底消除了對大規模人工標註的依賴，為開發者提供了一種具備高度可擴展性、高準確度且符合成本效益的自定義安全過濾解決方案，讓專用防護網的部署更加普及。