Problem
目前的語言模型(LLM)與視覺語言模型(VLM)雖然具備強大的推理能力,但在處理細粒度的視覺編輯任務時,往往難以精確掌握空間關係,導致修改後的物件佈局缺乏邏輯連貫性與空間一致性。
Method
開發「結構化推理」框架,透過場景圖(Scene-graph)進行語言導向的空間佈局編輯。該模型接收輸入場景圖與自然語言指令,在圖形結構上進行推理以產生更新後的場景圖,藉由明確的關係表示法來強化對空間關係的控制力與運算透明度。
Results
在包含排序、對齊與房間編輯的新型基準測試中,該方法相較於連鎖思考微調(CoT-SFT)與 GRPO 基線模型,在交併比(IoU)上平均提升了 15%,中心距離誤差減少 25%。與目前最先進的零樣本模型相比,其平均交併比(mIoU)領先幅度達 20%。
Significance
此研究突破了語言模型在三維空間推理上的瓶頸,透過結構化表示法大幅提升了佈局編輯的精準度。這項技術對於自動化室內設計、機器人空間感知以及擴增實境(AR)應用具有重要的參考價值。