Problem
現有的指令導引影片編輯模型難以同時兼顧精確的語義修改與忠實的動作保留。過往方法多依賴外部先驗(如 VLM 特徵或物理結構條件)來緩解此問題,卻也嚴重限制了模型的強健性與泛化能力,使其難以應對多變的編輯指令。
Method
本研究提出 SAMA 框架,將影片編輯流程解構為兩大核心:首先是「語義錨定」,透過在稀疏影格中同步預測語義標記與影片潛變量,建立純指令驅動的結構規劃;其次是「運動對齊」,讓模型在動態修復任務(如方塊補全、速度擾動、管道隨機化)上進行預訓練,從原始影片中直接內化時間動態規律。
Results
SAMA 在開源模型中達到了頂尖效能(State-of-the-art),並具備與 Kling-Omni 等領先商業系統競爭的實力。實驗證明,即使僅進行解構式預訓練而不使用成對的編輯資料,模型仍展現出強大的零樣本(zero-shot)影片編輯能力。
Significance
此研究證明了透過解構語義與運動表徵,模型無需依賴外部先驗或大量成對訓練資料,即可學習到強大的影片編輯能力。這不僅大幅降低了開發高品質影片編輯工具的門檻,也為未來影片生成技術的魯棒性與可控性提供了重要的技術路徑。