Problem
傳統多模態點雲補全採用「硬投射」(Hard Projection),導致稀疏點雲在圖像平面上支援度極低。這種現象被稱為「跨模態熵崩潰」(Cross-Modal Entropy Collapse),阻礙了視覺先驗資訊從圖像傳遞至點雲,使模型難以建立有效的跨模態關聯。
Method
提出 SplAttN 框架,將傳統硬投射替換為「可微分高斯投射」(Differentiable Gaussian Splatting)。透過將投射程序重構為連續密度估計,產生稠密且連續的圖像平面表示,從而優化梯度流並強化跨模態特徵的學習能力。
Results
實驗證明 SplAttN 在 PCN 與 ShapeNet-55/34 等基準資料集達到頂尖效能。在 KITTI 真實場景的壓力測試中,反事實評估顯示基準模型多退化為不具視覺敏感性的範本檢索器,而 SplAttN 則維持對視覺線索的強大依賴。
Significance
此研究釐清了多模態學習失效的理論機制,並提供有效的技術方案。它確保模型能真正融合視覺資訊而非僅依賴幾何記憶,對於提升自動駕駛等複雜環境下的 3D 感知精度具有重要價值。