Problem
現有的影片生成技術在相機控制上,往往面臨文字指令不精準,或是高度依賴繁瑣手動參數設定的問題,導致難以在自動化場景中靈活運用且符合物理規律的運鏡表現。
Method
研發團隊提出 CT-1(Camera Transformer 1)架構,結合視覺語言模組與擴散變換器(Diffusion Transformer)模型。該系統採用基於小波變換(Wavelet-based)的頻域正規化損失函數來學習複雜軌跡分佈,並建構包含 4,700 萬影格的大型資料集 CT-200K 進行訓練。
Results
實驗顯示 CT-1 成功將空間推理能力導入影片合成,生成的影片不僅畫質優異且高度符合使用者意圖。與既有技術相比,該模型在相機控制的精確度上顯著提升了 25.7%,實現了更精確的空間感知控制。
Significance
此研究建立了空間推理與影片生成之間的橋樑,使自動化影片生產能具備細膩的運鏡邏輯,不僅大幅降低高品質動態影片的製作門檻,也為未來自動化影視創作奠定了重要基礎。