CT-1 模型問世：透過視覺語言相機模型實現精準可控的影片生成與空間推理

本研究推出 CT-1 模型，透過視覺語言與擴散變換器架構，精準估算並控制影片中的相機軌跡。其運用小波正規化損失函數與大型資料集，將攝影機控制精確度提升達 25.7%。

Problem

現有的影片生成技術在相機控制上，往往面臨文字指令不精準，或是高度依賴繁瑣手動參數設定的問題，導致難以在自動化場景中靈活運用且符合物理規律的運鏡表現。

Method

研發團隊提出 CT-1（Camera Transformer 1）架構，結合視覺語言模組與擴散變換器（Diffusion Transformer）模型。該系統採用基於小波變換（Wavelet-based）的頻域正規化損失函數來學習複雜軌跡分佈，並建構包含 4,700 萬影格的大型資料集 CT-200K 進行訓練。

Results

實驗顯示 CT-1 成功將空間推理能力導入影片合成，生成的影片不僅畫質優異且高度符合使用者意圖。與既有技術相比，該模型在相機控制的精確度上顯著提升了 25.7%，實現了更精確的空間感知控制。

Significance

此研究建立了空間推理與影片生成之間的橋樑，使自動化影片生產能具備細膩的運鏡邏輯，不僅大幅降低高品質動態影片的製作門檻，也為未來自動化影視創作奠定了重要基礎。