Problem

現有的影片生成模型雖能產出精美畫面,但常面臨幾何不一致與結構變形的困境。傳統透過修改架構來引入 3D 先驗的方法,往往面臨計算成本過高且難以在大規模模型上擴展的問題。

Method

研究團隊開發了 World-R1 框架,利用 Flow-GRPO 演算法,藉由預訓練 3D 基礎模型與視覺語言模型的回饋進行強化學習對齊。此外,配合專為世界模擬設計的純文字資料集,並採用週期性解耦訓練策略,確保模型能在維持場景動態流暢度的同時,嚴格遵守幾何規律。

Results

廣泛評估顯示,該方法在完全不更動底層模型架構的情況下,大幅增強了影片生成的 3D 一致性。實驗證實 World-R1 成功修復了物體變形與透視錯誤,同時保留了基礎模型原有的高水準視覺渲染品質。

Significance

此研究為影片生成邁向大規模世界模擬邁出關鍵一步。藉由將幾何一致性視為強化學習的對齊目標,World-R1 提供了一種高效且可擴展的技術路徑,讓 AI 生成的虛擬世界更貼近真實物理空間的邏輯。