Problem
新視角合成面臨核心兩難:幾何先驗雖提供空間對齊,但在視角變換時易變得稀疏且不精確;外觀先驗雖具備高視覺保真度,卻缺乏幾何對應性。現有方法若非在生成過程中持續傳遞幾何錯誤,就是因靜態融合兩者而導致訊號衝突,難以兼顧空間一致性與影像品質。
Method
提出 MoCam 框架,採用「結構化降噪動態」技術。在擴散過程的早期階段,系統優先利用幾何先驗來錨定粗略結構,並容忍其原始資料的不完整性;隨後在後期階段切換至外觀先驗,主動修正幾何錯誤並細化視覺特徵。這種設計在時間維度上解耦了幾何對齊與外觀細化,達成兩者的協調演進。
Results
實驗結果顯示,MoCam 在多項指標上顯著優於現有的技術。特別是在輸入點雲包含嚴重空洞或幾何失真的嚴苛條件下,MoCam 仍能展現強韌的幾何與外觀解耦能力,生成具備高度保真度且結構正確的新視角影像。
Significance
此研究成功統一了靜態與動態的新視角合成任務,突破了過去對精確幾何輸入的過度依賴。透過動態協調機制,為處理不完美空間資訊提供了更具彈性的解決路徑,對生成式電腦視覺與 3D 重建領域具有重要的應用價值。