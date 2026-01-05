鉅亨網新聞中心 2026-01-05 10:04

Signal65 最新報告指出，AI 推理的遊戲規則已徹底改變。決定勝負的關鍵不再是單純的晶片算力或 GPU 數量，而是「每一美元能輸出多少智慧」（Tokenomics）。儘管輝達 (NVDA-US) 的 GB200 NVL72 機架級系統單 GPU 成本約為競爭對手 AMD(AMD-US) MI355X 的兩倍，但在處理前沿混合專家模型（MoE）時，其每 Token 成本卻能實現高達 15 倍的節省優勢，鞏固了輝達在 AI 基礎設施領域的王者地位。

輝達GB200最貴卻也最省！AI推理成本效益狂勝15倍 直接甩開AMD。(圖:shutterstock)

頂級投資人 Ben Pouladian 直言：「目前的關鍵不再是算力或 GPU 數量，而是每一美元能買到多少智慧輸出。」

報告指出，隨著全球頂級開源大型語言模型（LLM）幾乎全面轉向混合專家模型（MoE）架構（如 DeepSeek-R1），傳統的「稠密模型」推理模式正在被淘汰。MoE 模型透過在每個 Token 上只啟動最相關的「專家」，雖然能釋放更高水準的智慧，但其主要限制在於「通訊瓶頸」。

當不同專家分佈在多塊 GPU 上時，任何 GPU 之間的通訊延遲都會導致「空轉時間」（idle time），造成算力浪費，並直接推高服務提供者的成本。因此，能夠在系統層面實現尖峰效能的端到端平台設計，已成為實現低成本、高響應 AI 服務的關鍵槓桿。

輝達在從 Hopper 架構過渡到 Blackwell 架構時，推出 GB200 NVL72，不僅提升了單 GPU 性能，更重要的是對底層系統架構進行了重新設計：

機架級互聯： 從 8-GPU 的 HGX 伺服器轉向全液冷的機架級系統，將 72 塊 GPU 連接在同一個 NVLink 域內。

軟體編排： 結合強大的軟體調度能力，徹底改變了成本結構，有效緩解了 MoE 架構下的通訊瓶頸。

根據 CoreWeave 公佈的目錄價，GB200 NVL72 的單 GPU 價格大約比 H200 貴 1.7 倍，且比競爭平台貴約一倍。然而，輝達的創始人黃仁勳的至理名言「The more you buy, the more you save！」在推理經濟學中得到驗證。

Signal65 的基準測試數據顯示，GB200 NVL72 在處理前沿的 DeepSeek-R1 MoE 模型時，展現出「斷崖式」的性能和成本優勢。

具體而言，在擴展到前沿規模時，GB200 NVL72 的峰值吞吐量最高可達競爭對手 AMD MI355X 的 28 倍。此外，在要求高互動性的推理工作負荷中，GB200 的單位 Token 成本能實現顯著節省，最低可降至競爭對手方案的 15 分之 1。

即使考慮到單 GPU 價格的差異，AMD MI355X 的價格約為 GB200 NVL72 配置的一半，然而 GB200 NVL72 在系統級效能上帶來的顯著提升，使得實際交付的 Token 吞吐提升幅度遠大於基礎設施成本的提升幅度。

例如，在每用戶 60 tokens/sec 的互動目標下，GB200 NVL72 的單 GPU 效能仍約為 MI355X 的 11.5 倍。這就是「更貴的 GPU 反而更省錢」的反直覺結果，因為它能以更低成本產生有效的 Token。

平台級設計成最終決勝點

報告總結，前沿 AI 模型的未來是更大、更複雜的 MoE 架構。隨著複雜性與規模持續上升，單純依賴晶片層面的原始 FLOPs 已不足以決勝。平台級設計成為決定性因素，包括：

NVLink 高速互連與通訊效率。

多節點擴展特性。

成熟的軟體堆疊與生態系統支援。

在並發和混合負載下維持高利用率的能力。