賦予影片生成模型物理靈魂：PhyCo 透過可控物理先驗解決影像合成的失真難題

PhyCo 框架透過百萬級模擬資料與 ControlNet 微調，讓擴散模型能精準遵循摩擦力、彈力等物理參數，無需即時模擬器即可生成具備高度物理一致性且可控的動態影像。

Problem

目前的影片擴散模型雖然擅長合成華麗的視覺畫面，但在物理一致性上仍面臨挑戰，例如物體不自然漂移、碰撞缺乏真實回彈感，以及材質反應與其物理屬性不符。這些問題導致生成的動態影像往往缺乏真實感，且難以透過精確的物理參數進行引導。

研究團隊開發了 PhyCo 框架，包含三大核心組件：首先建立超過十萬段包含摩擦力、彈力與形變等變數的模擬影片資料集；其次利用物理屬性地圖作為 ControlNet 的條件，對預訓練擴散模型進行物理監督微調；最後引入視覺語言模型（VLM）引導的獎勵優化，透過針對性的物理詢問提供可微分的回饋。

在 Physics-IQ 基準測試中，PhyCo 的物理真實度表現大幅超越現有的強大基準模型。人類研究進一步證實，PhyCo 能根據物理屬性的變化，精確且忠實地控制生成結果。最重要的是，該模型在推論階段無需依賴模擬器或幾何重建，即可實現具備物理常識的影像生成。

這項研究為具備物理一致性的生成式影片模型提供了一條可擴展的路徑，證明了模型可以學會泛化至合成環境之外的物理規律。這不僅提升了影片生成的品質，更為需要精密控制物理屬性的影視創作與虛擬環境建構提供了實用的技術方案。