NVIDIA 透過「極致協同設計」刷新 MLPerf 推論紀錄：硬體、軟體與模型的深度整合如何降低 AI 成本？

NVIDIA 在最新一輪 MLPerf 推論基準測試中，透過 NVL72 平台展現軟硬體協同優化的實力。該策略不僅大幅提升了 AI 工廠的吞吐量，更有效降低生成字元的運算成本。

在當前全球 AI 算力競賽中，硬體規格往往是市場關注的焦點，但 NVIDIA 在最新一輪 MLPerf 推論基準測試中展現了不同的思維。這次他們不單是靠晶片的原始效能取勝，而是強調「極致協同設計」（Extreme Co-Design）的概念。這項策略讓 NVIDIA 在處理大型語言模型（LLM）等複雜任務時，再次刷新了效能紀錄，並將 AI 推論的效率推向新高度。

所謂的「協同設計」，其核心在於打破硬體、軟體與模型之間的界限。在這次的測試中，NVIDIA 推出了基於 Blackwell 架構的 NVL72 系統，並將其與精確優化的軟體堆疊以及針對特定硬體特性調整的 AI 模型相結合。這種三位一體的開發模式，目標是達成「AI 工廠」等級的高吞吐量。對於企業而言，單純看峰值效能已不足夠，更重要的是如何顯著降低每生成一個「字元」（Token）所需的實際運算成本，這正是此次紀錄背後的關鍵指標。

這項發展對整個產業產生的影響相當深遠。首先，對於大型資料中心與雲端服務供應商來說，單純增加伺服器數量已不再是擴張算力的最佳解。透過這種系統級的優化，NVIDIA 展示了如何在相同的能源消耗與空間占用下，提供更高密度的推論服務。這直接對應到商業競爭力：當生成式 AI 的應用程式如雨後春筍般出現時，誰能以更低的延遲、更低的成本提供推論服務，誰就能在市場中佔據絕對優勢。

此外，這也代表著技術門檻的移轉。過去 AI 模型開發者可能只需關注模型架構的設計，但現在，若要追求極致效能，必須將底層硬體的特性（如 NVLink 的互連頻寬、Blackwell 的 FP4 量化技術等）深度納入考量。這種高度整合的趨勢，讓 NVIDIA 從一家單純的晶片供應商，轉型為提供完整運算解決方案的系統專家，進一步鞏固了其在 AI 生態系中的主導地位。

為什麼這項展現值得關注？台灣作為全球 AI 伺服器與半導體供應鏈的核心，這類「協同設計」的趨勢將帶動後續伺服器設計規格的重大轉變。未來的 AI 基礎設施將不再只是零件的堆疊，而是需要更複雜的水冷散熱系統、更高速的通訊架構，以及針對模型特性進行客製化的佈署方案。NVIDIA 在 MLPerf 紀錄上的持續領先，其實是在為未來幾年的企業級 AI 佈署劃定新的技術基準。當算力競爭從「比拼數量」進化為「比拼系統整合效率」時，整個產業鏈的垂直整合能力，將成為下一個決定成敗的關鍵戰場。