重新定義大語言模型推論效能：從單純硬體吞吐量轉向「能源對標記」生產力評估

本文主張大語言模型推論不應僅視為軟體問題，而應以能源效率為核心。作者提出「能源對標記」生產函數，將運算、電力與冷卻能力納入考量，作為衡量推論成本與規模化的新標準。

Problem

目前的 LLM 推論評估主要聚焦於準確度、延遲、吞吐量與硬體利用率。然而，在實際大規模部署時，這些指標並不完整，因為它們忽略了資料中心在電力供應、冷卻容量及電力使用效率（PUE）等物理資源上的限制。

研究團隊提出一個具備量綱一致性的「標記生產函數」（Token Production Function）。此框架將標記產生率定義為同時受限於「單一標記運算量（compute-per-token）」與「單一標記能耗（energy-per-token）」的結果，藉此釐清推論效能的物理邊界。

在此框架下，KV 快取壓縮、量化、稀疏注意力與自適應推理等優化手段，不再只是局部的工程技巧，而是調節「能源對標記」的重要槓桿。研究發現，當規模擴大時，效能瓶頸會從理論算力峰值轉移至實際電力傳輸與營運效率。

這項研究為推論成本與可持續性提供了新的量化視角。作者呼籲未來的基準測試應包含每標記焦耳數（Joules/token）、主導限制因素及 PUE 調整後的電力數據，這對實現高效能且具成本效益的 AI 部署至關重要。