menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon

美股

DeepSeek開源第三天 輝達出手優化DeepSeek-R1 B200性能飆升25倍

鉅亨網新聞中心 2025-02-27 08:11

cover image of news article
(圖:REUTERS/TPG)

近日,輝達 (NVDA-US) 開源了首個在 Blackwell 架構上優化的 DeepSeek-R1,實現了推理速度提升 25 倍,並且每 token 成本降低 20 倍的驚人成果。這一新模型的推出,標誌著輝達在人工智慧領域的又一次重大進展。

根據報導,DeepSeek-R1 的本地化部署已經引起廣泛關注,輝達也親自下場,開源了基於 Blackwell 架構的優化方案——DeepSeek-R1-FP4。這一新模型在推理吞吐量上達到了高達 21,088 token 每秒,與 H100 的 844 token 每秒相比,提升幅度高達 25 倍。同時,每 token 的成本也實現了 20 倍的降低。


輝達通過在 Blackwell 架構上應用 TensorRT DeepSeek 優化,讓具有 FP4 生產級精度的模型,在 MMLU 通用智能基準測試中達到了 FP8 模型性能的 99.8%。目前,輝達基於 FP4 優化的 DeepSeek-R1 檢查點已經在 Hugging Face 上開源,並且可以通過以下鏈接訪問模型地址:DeepSeek-R1-FP4

在後訓練量化方面,該模型將 Transformer 模塊內的線性算子的權重和激活量化到了 FP4,適用於 TensorRT-LLM 推理。這一優化使每個參數的位數從 8 位減少到 4 位,從而讓磁碟空間和 GPU 顯存的需求減少了約 1.6 倍。

使用 TensorRT-LLM 部署量化後的 FP4 權重文件,能夠為給定的提示生成文本響應,這需要支持 TensorRT-LLM 的輝達 GPU(如 B200),並且需要 8 個 GPU 來實現 tensor_parallel_size=8 的張量並行。這段代碼利用 FP4 量化、TensorRT 引擎和並行計算,旨在實現高效、低成本的推理,適合生產環境或高吞吐量應用。

針對此次優化的成果,網友們表示驚嘆,稱「FP4 魔法讓 AI 未來依然敏銳!」有網友評論道,這次的優化使得美國供應商能夠以每百萬 token 0.25 美元的價格提供 R1,並認為「還會有利潤」。

如今,DeepSeek 的開源活動持續進行,已經迎來了第三天。周一,DeepSeek 開源了 FlashMLA,這是專為輝達 Hopper GPU 打造的高效 MLA 解碼內核,特別針對變長序列進行了優化。周二則推出了 DeepEP,這是一個為混合專家系統(MoE)和專家並行(EP)設計的通信庫。周三開源的是 DeepGEMM,這是一個支持稠密和 MoE 模型的 FP8 GEMM 計算庫,為 V3/R1 的訓練和推理提供強大支持。

總體而言,無論是輝達開源的 DeepSeek-R1-FP4,還是 DeepSeek 開源的其他三個倉庫,都是通過對輝達 GPU 和集群的優化,來推動 AI 模型的高效計算和部署。

文章標籤


Empty