Problem

現有的自然語言基礎模型在處理表格資料時面臨限制:大型語言模型(LLM)難以輸出相容檢索的向量,而傳統文字嵌入模型則往往無法有效捕捉表格的結構化資訊與數值語義,導致理解深度不足。

Method

研究團隊首先建立全面性評測基準 TabBench。接著開發 TabEmbed 模型,將多樣的表格任務重新定義為語義匹配問題,並利用大規模對比學習結合「正向感知硬負採樣」(positive-aware hard negative mining)技術,辨識表格中精細的結構與數值細節。

Results

在 TabBench 基準測試中,TabEmbed 的表現顯著優於目前最先進的文字嵌入模型,成功在共享的嵌入空間內統一了表格分類與檢索任務,證明其強大的通用表徵學習能力。

Significance

這項研究填補了表格資料缺乏統一基礎模型表徵的空白,為表格理解技術樹立了新的基準。透過開源程式碼與數據集,不僅能促進學術研究,也為結構化資料的高效檢索與自動化處理提供了實用工具。