MoCam：運用結構化降噪動態協調幾何與外觀先驗，實現強韌的統一新視角合成框架

本研究提出 MoCam，利用擴散過程中的結構化降噪動態，將幾何對齊與外觀細化在時間上解耦。該方法能有效處理點雲空洞與失真，在靜態與動態視角合成任務中皆展現出卓越的視覺逼真度。

Problem

新視角合成面臨核心兩難：幾何先驗雖提供空間對齊，但在視角變換時易變得稀疏且不精確；外觀先驗雖具備高視覺保真度，卻缺乏幾何對應性。現有方法若非在生成過程中持續傳遞幾何錯誤，就是因靜態融合兩者而導致訊號衝突，難以兼顧空間一致性與影像品質。

提出 MoCam 框架，採用「結構化降噪動態」技術。在擴散過程的早期階段，系統優先利用幾何先驗來錨定粗略結構，並容忍其原始資料的不完整性；隨後在後期階段切換至外觀先驗，主動修正幾何錯誤並細化視覺特徵。這種設計在時間維度上解耦了幾何對齊與外觀細化，達成兩者的協調演進。

實驗結果顯示，MoCam 在多項指標上顯著優於現有的技術。特別是在輸入點雲包含嚴重空洞或幾何失真的嚴苛條件下，MoCam 仍能展現強韌的幾何與外觀解耦能力，生成具備高度保真度且結構正確的新視角影像。

此研究成功統一了靜態與動態的新視角合成任務，突破了過去對精確幾何輸入的過度依賴。透過動態協調機制，為處理不完美空間資訊提供了更具彈性的解決路徑，對生成式電腦視覺與 3D 重建領域具有重要的應用價值。