Problem
現有的多模態模型在處理文字、影像及 3D 幾何等異質資料時,往往難以有效整合不同模態間的互補資訊,導致在複雜跨領域任務中,推理過程缺乏連貫性且難以精準逼近共享的知識流形。
Method
研究團隊提出名為 Omni 的統一多模態模型,原生訓練於文字、影像、影片、3D 幾何及隱含表示法等多元資料。該模型引入「情境展開」(Context Unrolling)機制,使其在產生最終預測前,能先在多種模態表示之間進行顯式的邏輯推理與資訊整合。
Results
實驗證明 Omni 在多模態生成與理解的基準測試中皆取得強大效能。該模型展現了先進的推理能力,能執行包含文字、圖片、影片及 3D 幾何的進階情境內生成(in-context generation),並顯著提升了下游任務的推理保真度。
Significance
此研究揭示了統一模態訓練能促使模型更有效地聚合異質資訊,進而更忠實地理解跨模態知識。這為未來開發具備高度推理能力、能處理複雜多樣化資料格式的通用人工智慧(AGI)提供了重要路徑。