Omni 模型實現多模態情境展開：整合文字、影像與 3D 幾何的跨領域推理新典範

本研究開發 Omni 統一模型，透過「情境展開」技術整合多樣模態，顯著提升跨領域資料的推理精度與生成表現，為多模態人工智慧開拓新可能。

Problem

現有的多模態模型在處理文字、影像及 3D 幾何等異質資料時，往往難以有效整合不同模態間的互補資訊，導致在複雜跨領域任務中，推理過程缺乏連貫性且難以精準逼近共享的知識流形。

研究團隊提出名為 Omni 的統一多模態模型，原生訓練於文字、影像、影片、3D 幾何及隱含表示法等多元資料。該模型引入「情境展開」（Context Unrolling）機制，使其在產生最終預測前，能先在多種模態表示之間進行顯式的邏輯推理與資訊整合。

實驗證明 Omni 在多模態生成與理解的基準測試中皆取得強大效能。該模型展現了先進的推理能力，能執行包含文字、圖片、影片及 3D 幾何的進階情境內生成（in-context generation），並顯著提升了下游任務的推理保真度。

此研究揭示了統一模態訓練能促使模型更有效地聚合異質資訊，進而更忠實地理解跨模態知識。這為未來開發具備高度推理能力、能處理複雜多樣化資料格式的通用人工智慧（AGI）提供了重要路徑。