輝達護城河不存在了?傳DeepSeek繞過CUDA壟斷
鉅亨網新聞中心 2025-01-30 09:00
最新消息稱,DeepSeek 團隊走了一條不尋常的路——針對輝達 (NVDA-US)GPU 低階彙編語言 PTX 進行最佳化實現最大效能,有業界人士表示 CUDA 護城河不存在了。
《新智元》報導,原本 DeepSeek 低成本訓出的 R1,就已經讓整個矽谷和華爾街為之一震。而現在又曝出,打造這款超級 AI,竟連 CUDA 也不需要了?
有消息指,他們在短短兩個月時間,在 2,048 個 H800 GPU 集群上,訓出 6710 億參數的 MoE 語言模型,比頂尖 AI 效率高出 10 倍。
這項突破不是用 CUDA 實現的,而是透過大量細粒度優化以及使用輝達的類別彙編等級的 PTX(並行執行緒執行)程式設計。
消息一出,再次掀翻 AI 圈,網友對其策略紛紛表示震驚:「在這個世界上,如果有哪群人會瘋狂到說出『CUDA 太慢了!乾脆直接寫 PTX 吧!』這種話,絕對就是那些前量化交易員了。」
還有人表示,如果 DeepSeek 開源了 CUDA 替代品,這會代表什麼?
輝達 PTX(平行執行緒執行)是專門為其 GPU 設計的中間指令集架構,位於高階 GPU 程式語言(如 CUDA C/C++ 或其他語言前端)和低階機器碼(串流處理彙編或 SASS)之間。
PTX 是一種接近底層的指令集架構,將 GPU 呈現為資料並行運算設備,因此能夠實現暫存器分配、執行緒 / 執行緒束級調整等細粒度最佳化,這些是 CUDA C/C++ 等語言無法實現的。
當 PTX 轉換為 SASS 後,就會針對特定代的輝達 GPU 進行最佳化。
在訓練 V3 模型時,DeepSeek 對輝達 H800 GPU 進行了重新配置:在 132 個流處理器多核心中,劃分出 20 個用於伺服器間通信,主要用於資料壓縮和解壓縮,以突破處理器的連接限制、提升事務處理速度。
為了最大化性能,DeepSeek 還透過額外的細粒度線程 / 線程束級別調整,實現了先進的管線演算法。
這些優化遠超常規 CUDA 開發水平,但維護難度極高。然而,這種等級的優化恰恰充分展現 DeepSeek 團隊的卓越技術實力。
這是因為,在全球 GPU 短缺和美國限制的雙重壓力下,DeepSeek 等公司不得不尋求創新解決方案。
所幸的是,他們在這方面取得了重大突破。有開發者認為,「底層 GPU 程式才是正確的方向。優化越多,就越能降低成本,或在不增加額外支出的情況下,提高可用於其他方面進步的效能預算」。這項突破對市場造成了顯著衝擊,部分投資人認為新模型對高效能硬體的需求將會降低,可能會影響輝達等公司的銷售表現。
然而,包括英特爾前掌門人 Pat Gelsinger 等在內的業界資深人士認為,AI 應用能夠充分利用一切可用的運算能力。
對於 DeepSeek 的這項突破,Gelsinger 將其視為在大眾市場中,為各類低成本設備植入 AI 能力的新途徑。
那麼,DeepSeek 的出現是否意味著前沿 LLM 的開發,不再需要大規模 GPU 叢集?
Google、OpenAI、Meta 和 xAI 在運算資源上的巨額投資是否最終將付諸東流? AI 開發者們的普遍共識並非如此。
不過可以確定的是,在資料處理和演算法最佳化方面仍有巨大潛力可以挖掘,未來必將湧現更多創新的最佳化方法。
隨著 DeepSeek 的 V3 模型開源,其技術報告中詳細揭露了相關細節。該報告記錄了 DeepSeek 進行的深度底層優化。簡而言之,其最佳化程度可以概括為「他們從底層重新建構了整個系統」。
如上所述,在使用 H800 GPU 訓練 V3 時,DeepSeek 對 GPU 核心運算單元(流處理器多核心,簡稱 SM)進行了客製化改造以滿足特定需求。
在全部 132 個 SM 中,他們專門劃分出 20 個用於處理伺服器間通訊任務,而非計算任務。
這種客製化工作是在 PTX(平行執行緒執行)層級進行的,這是輝達 GPU 的低階指令集。
PTX 運行在接近組譯語言的層面,能夠實現暫存器分配和執行緒 / 執行緒束級別調整等細粒度最佳化。然而,這種精細的控制既複雜又難以維護。
這也是為什麼開發者通常會選擇使用 CUDA 這類高階程式語言,因為它們能為大多數平行程式設計任務提供充分的效能最佳化,無需進行底層最佳化。
但是,當需要將 GPU 資源效能發揮到極致並實現特殊最佳化需求時,開發者就不得不求助於 PTX。
對此,網友 Ian Cutress 表示:「Deepseek 對於 PTX 的使用,並不會消除 CUDA 的技術壁壘。」
CUDA 是一種高階語言。它使程式碼庫的開發和與輝達 GPU 的介面變得更簡單,同時也支援快速迭代開發。
CUDA 可以透過微調底層程式碼(即 PTX)來優化效能,而且基礎庫都已經完備。目前絕大多數生產級的軟體都是基於 CUDA 建構的。
PTX 更類似於可以直接理解的 GPU 組合語言。它工作在底層,允許進行微觀層面的最佳化。
目前,輝達生態的主流,仍然是使用 CUDA。對於確實需要使用 PTX 的場景,以及那些收到足夠報酬來處理這些問題的開發者,我們表示充分的理解和尊重。至於其他開發者,繼續使用 CUDA 或其他基於 CUDA 的高階變體(或 MLIR)才是明智的選擇。
- 如何發揮多重資產策略的最大優勢?
- 掌握全球財經資訊點我下載APP
上一篇
下一篇