MoCapAnything V2：首款端到端任意骨架動態捕捉技術，大幅提升 3D 動畫精準度與效率

本研究推出首個全端到端動態捕捉框架，將影片直接轉換為任意骨架旋轉數據。透過參考姿勢解決旋轉歧義並優化運算流程，顯著降低誤差並提升推論速度達 20 倍。

Problem

傳統單視角影片動態捕捉多採用分段式流程，先預測關節位置再透過反向動力學（IK）推算旋轉。然而，僅靠關節位置無法完全決定旋轉資訊，常導致骨骼軸向扭轉等歧義；且非微分的 IK 階段使系統無法針對預測雜訊進行端到端的優化。

研發團隊提出首個完全端到端的可學習框架，將「影片轉姿勢」與「姿勢轉旋轉」整合優化。透過引入目標資產的參考姿勢與旋轉配對來定義座標系統，解決旋轉映射的歧義性。此外，模型搭載了骨架感知的「全域-局部圖引導多頭注意力機制」（GL-GMHA），直接從影片提取關節數據，跳過耗時的中間網格重建步驟。

在 Truebones Zoo 與 Objaverse 基準測試中，該方法將旋轉誤差從約 17 度降低至 10 度，而在未見過的骨架上誤差僅 6.54 度。在處理效率方面，推論速度比現有基於網格的 pipeline 快約 20 倍。

此研究成功克服了任意骨架動態捕捉中長期存在的旋轉歧義與運算效率障礙，為影視動畫自動化、虛擬角色建模及跨物種動態生成提供了更強大且精準的技術底層，具備高度的產業應用價值。