3D-Layout-R1：結合結構化場景圖推理，提升語言驅動空間編輯之精確度與邏輯連貫性

本研究開發 3D-Layout-R1 框架，利用場景圖推理提升模型對空間佈局的理解力。該方法顯著改善了語言模型在執行細粒度視覺編輯時的精確度與空間邏輯一致性。

Problem

目前的語言模型（LLM）與視覺語言模型（VLM）雖然具備強大的推理能力，但在處理細粒度的視覺編輯任務時，往往難以精確掌握空間關係，導致修改後的物件佈局缺乏邏輯連貫性與空間一致性。

開發「結構化推理」框架，透過場景圖（Scene-graph）進行語言導向的空間佈局編輯。該模型接收輸入場景圖與自然語言指令，在圖形結構上進行推理以產生更新後的場景圖，藉由明確的關係表示法來強化對空間關係的控制力與運算透明度。

在包含排序、對齊與房間編輯的新型基準測試中，該方法相較於連鎖思考微調（CoT-SFT）與 GRPO 基線模型，在交併比（IoU）上平均提升了 15%，中心距離誤差減少 25%。與目前最先進的零樣本模型相比，其平均交併比（mIoU）領先幅度達 20%。

此研究突破了語言模型在三維空間推理上的瓶頸，透過結構化表示法大幅提升了佈局編輯的精準度。這項技術對於自動化室內設計、機器人空間感知以及擴增實境（AR）應用具有重要的參考價值。