Problem

傳統的神經架構設計高度依賴人工經驗與直覺,限制了模型結構的探索廣度與開發速度。若要達成 AI 的「遞迴式自我改進」(Recursive Self-improvement),系統必須具備在無人干預下自主發現、優化並實現高效能運算原形與複雜架構的能力。

Method

研究團隊引入了雙框架系統:AIRA-Compose 負責高階架構搜尋,派遣 11 個代理人在 24 小時內探索基礎運算原形,並將優異設計擴展至 30 億參數規模;AIRA-Design 則指派 20 個代理人進行低階機制實作,專注於編寫創新的注意力機制與高效訓練腳本,以應對長程依賴問題。

Results

AIRA 產出的 AIRAformer 與 AIRAhybrid 架構在下游任務中,準確度比 Llama 3.2 高出 2.4% 至 3.8%。在擴展效率方面,AIRAformer-C 的成長速度比 Llama 3.2 快 54%。此外,代理人設計的機制在 Long Range Arena 基準測試中,表現已達到人類尖端設計的 97% 以上,展現出極強的演算法優化能力。

Significance

這項研究證實 AI 代理人有能力自主發現超越手動設計的基礎模型架構與演算法優化路徑。這不僅為下一代 AI 模型開發建立了強大的自動化典範,更為實現 AGI 系統的自我進化與持續效能突破奠定了實務基礎。