DeepSeek繞過CUDA實現突破 影響AI產業格局
鉅亨網新聞中心 2025-01-30 11:00
AI 領域近日迎來重大突破,DeepSeek 利用 2048 個輝達 (NVDA-US)H800 GPU 的集群,在大約兩個月的時間成功訓練出一款包含 6710 億個參數的混合專家 (mixture of experts, MoE) 語言模型。
這項成果不僅在規模上令人矚目,效率上遠超業界領導者,其效率比 Meta(META-US) 等公司高出 10 倍。據 Mirae Asset Securities Korea 分析,這項突破的關鍵在於 DeepSeek 實施了大量細粒度優化,並採用了輝達的 PTX(平行執行緒執行)編程,而非傳統的 CUDA。
PTX 是輝達為其 GPU 設計的中間指令集架構,位於高階 GPU 程式語言(如 CUDA C/C++ 或其他語言前端)和低階機器碼(如串流彙編或 SASS)之間。作為一種接近硬體的 ISA,PTX 能夠將 GPU 暴露為資料並行計算設備,從而實現細粒度優化,例如寄存器分配和線程 / 翹曲級別調整,這些優化在 CUDA C/C++ 和其他高級語言中難以實現。當 PTX 程式碼被轉換為 SASS 後,將針對特定一代的輝達 GPU 進行深度最佳化。
在訓練 V3 模型時,DeepSeek 對輝達 H800 GPU 進行了重新配置。在 132 個流多處理器中,DeepSeek 分配了 20 個用於伺服器到伺服器的通信,這可能用於資料的壓縮和解壓縮,以克服處理器的連接限制並加快交易速度。為了最大限度地提高性能,DeepSeek 也實現了先進的管道演算法,透過更精細的線程 / 翹曲等級調整來進一步提升性能。
這些優化措施遠超出了標準 CUDA 開發範疇,但同時帶來了更高的維護難度。這種高水準的最佳化反映了 DeepSeek 工程師的卓越技術能力。在全球 GPU 短缺以及美國相關限制的背景下,DeepSeek 透過創新解決方案實現了這突破。然而,目前尚不清楚 DeepSeek 在研發上投入了多少資金來實現該目標。
這項突破引發了市場關注,部分投資人擔心,新的 AI 模式對高效能硬體的需求可能會下降,進而影響輝達等公司的銷售。然而,英特爾 (INTC-US) 前執行長季辛格 (Pat Gelsinger) 等業界人士認為,AI 等應用仍需要盡可能多的運算能力。季辛格指出,DeepSeek 的突破可能是將 AI 技術引入大眾市場中各種廉價設備的一種方式。
DeepSeek 的這項突破不僅展現了其在技術上的創新能力,也為 AI 產業未來發展提供了新的思路和方向。隨著科技不斷進步,AI 領域有望迎來更多突破,為科技發展注入新動力。
- 如何發揮多重資產策略的最大優勢?
- 掌握全球財經資訊點我下載APP
延伸閱讀
上一篇
下一篇