彌補 2D 與 3D 鴻溝：SplAttN 透過高斯柔性投射與注意力機制實現點雲補全的新高度

本研究提出 SplAttN 架構，利用可微分高斯投射解決多模態學習中的「跨模態熵崩潰」問題，顯著提升了點雲補全的精度與跨模態連結的強韌度。

Problem

傳統多模態點雲補全採用「硬投射」（Hard Projection），導致稀疏點雲在圖像平面上支援度極低。這種現象被稱為「跨模態熵崩潰」（Cross-Modal Entropy Collapse），阻礙了視覺先驗資訊從圖像傳遞至點雲，使模型難以建立有效的跨模態關聯。

提出 SplAttN 框架，將傳統硬投射替換為「可微分高斯投射」（Differentiable Gaussian Splatting）。透過將投射程序重構為連續密度估計，產生稠密且連續的圖像平面表示，從而優化梯度流並強化跨模態特徵的學習能力。

實驗證明 SplAttN 在 PCN 與 ShapeNet-55/34 等基準資料集達到頂尖效能。在 KITTI 真實場景的壓力測試中，反事實評估顯示基準模型多退化為不具視覺敏感性的範本檢索器，而 SplAttN 則維持對視覺線索的強大依賴。

此研究釐清了多模態學習失效的理論機制，並提供有效的技術方案。它確保模型能真正融合視覺資訊而非僅依賴幾何記憶，對於提升自動駕駛等複雜環境下的 3D 感知精度具有重要價值。