World-R1：透過強化學習強化 3D 約束，打造具備幾何一致性的高品質文字轉影片技術

World-R1 框架結合強化學習與 Flow-GRPO 演算法，在不變動架構的前提下將 3D 約束導入影片生成，顯著提升場景幾何一致性，並在視覺品質與物理規律間取得平衡。

Problem

現有的影片生成模型雖能產出精美畫面，但常面臨幾何不一致與結構變形的困境。傳統透過修改架構來引入 3D 先驗的方法，往往面臨計算成本過高且難以在大規模模型上擴展的問題。

研究團隊開發了 World-R1 框架，利用 Flow-GRPO 演算法，藉由預訓練 3D 基礎模型與視覺語言模型的回饋進行強化學習對齊。此外，配合專為世界模擬設計的純文字資料集，並採用週期性解耦訓練策略，確保模型能在維持場景動態流暢度的同時，嚴格遵守幾何規律。

廣泛評估顯示，該方法在完全不更動底層模型架構的情況下，大幅增強了影片生成的 3D 一致性。實驗證實 World-R1 成功修復了物體變形與透視錯誤，同時保留了基礎模型原有的高水準視覺渲染品質。

此研究為影片生成邁向大規模世界模擬邁出關鍵一步。藉由將幾何一致性視為強化學習的對齊目標，World-R1 提供了一種高效且可擴展的技術路徑，讓 AI 生成的虛擬世界更貼近真實物理空間的邏輯。