Problem

目前的 LLM 推論評估主要聚焦於準確度、延遲、吞吐量與硬體利用率。然而,在實際大規模部署時,這些指標並不完整,因為它們忽略了資料中心在電力供應、冷卻容量及電力使用效率(PUE)等物理資源上的限制。

Method

研究團隊提出一個具備量綱一致性的「標記生產函數」(Token Production Function)。此框架將標記產生率定義為同時受限於「單一標記運算量(compute-per-token)」與「單一標記能耗(energy-per-token)」的結果,藉此釐清推論效能的物理邊界。

Results

在此框架下,KV 快取壓縮、量化、稀疏注意力與自適應推理等優化手段,不再只是局部的工程技巧,而是調節「能源對標記」的重要槓桿。研究發現,當規模擴大時,效能瓶頸會從理論算力峰值轉移至實際電力傳輸與營運效率。

Significance

這項研究為推論成本與可持續性提供了新的量化視角。作者呼籲未來的基準測試應包含每標記焦耳數(Joules/token)、主導限制因素及 PUE 調整後的電力數據,這對實現高效能且具成本效益的 AI 部署至關重要。