美股

輝達護城河不存在了？傳DeepSeek繞過CUDA壟斷

鉅亨網新聞中心2025-01-30 09:00

最新消息稱，DeepSeek 團隊走了一條不尋常的路——針對輝達 (NVDA-US)GPU 低階彙編語言 PTX 進行最佳化實現最大效能，有業界人士表示 CUDA 護城河不存在了。

cover image of news article — 傳DeepSeek繞過CUDA壟斷(圖：Shutterstock)

《新智元》報導，原本 DeepSeek 低成本訓出的 R1，就已經讓整個矽谷和華爾街為之一震。而現在又曝出，打造這款超級 AI，竟連 CUDA 也不需要了？

‌

有消息指，他們在短短兩個月時間，在 2,048 個 H800 GPU 集群上，訓出 6710 億參數的 MoE 語言模型，比頂尖 AI 效率高出 10 倍。

這項突破不是用 CUDA 實現的，而是透過大量細粒度優化以及使用輝達的類別彙編等級的 PTX（並行執行緒執行）程式設計。

消息一出，再次掀翻 AI 圈，網友對其策略紛紛表示震驚：「在這個世界上，如果有哪群人會瘋狂到說出『CUDA 太慢了！乾脆直接寫 PTX 吧！』這種話，絕對就是那些前量化交易員了。」

還有人表示，如果 DeepSeek 開源了 CUDA 替代品，這會代表什麼？

輝達 PTX（平行執行緒執行）是專門為其 GPU 設計的中間指令集架構，位於高階 GPU 程式語言（如 CUDA C/C++ 或其他語言前端）和低階機器碼（串流處理彙編或 SASS）之間。

PTX 是一種接近底層的指令集架構，將 GPU 呈現為資料並行運算設備，因此能夠實現暫存器分配、執行緒 / 執行緒束級調整等細粒度最佳化，這些是 CUDA C/C++ 等語言無法實現的。

當 PTX 轉換為 SASS 後，就會針對特定代的輝達 GPU 進行最佳化。

在訓練 V3 模型時，DeepSeek 對輝達 H800 GPU 進行了重新配置：在 132 個流處理器多核心中，劃分出 20 個用於伺服器間通信，主要用於資料壓縮和解壓縮，以突破處理器的連接限制、提升事務處理速度。

為了最大化性能，DeepSeek 還透過額外的細粒度線程 / 線程束級別調整，實現了先進的管線演算法。

這些優化遠超常規 CUDA 開發水平，但維護難度極高。然而，這種等級的優化恰恰充分展現 DeepSeek 團隊的卓越技術實力。

這是因為，在全球 GPU 短缺和美國限制的雙重壓力下，DeepSeek 等公司不得不尋求創新解決方案。

所幸的是，他們在這方面取得了重大突破。有開發者認為，「底層 GPU 程式才是正確的方向。優化越多，就越能降低成本，或在不增加額外支出的情況下，提高可用於其他方面進步的效能預算」。這項突破對市場造成了顯著衝擊，部分投資人認為新模型對高效能硬體的需求將會降低，可能會影響輝達等公司的銷售表現。

然而，包括英特爾前掌門人 Pat Gelsinger 等在內的業界資深人士認為，AI 應用能夠充分利用一切可用的運算能力。

對於 DeepSeek 的這項突破，Gelsinger 將其視為在大眾市場中，為各類低成本設備植入 AI 能力的新途徑。

那麼，DeepSeek 的出現是否意味著前沿 LLM 的開發，不再需要大規模 GPU 叢集？

Google、OpenAI、Meta 和 xAI 在運算資源上的巨額投資是否最終將付諸東流？ AI 開發者們的普遍共識並非如此。

不過可以確定的是，在資料處理和演算法最佳化方面仍有巨大潛力可以挖掘，未來必將湧現更多創新的最佳化方法。

隨著 DeepSeek 的 V3 模型開源，其技術報告中詳細揭露了相關細節。該報告記錄了 DeepSeek 進行的深度底層優化。簡而言之，其最佳化程度可以概括為「他們從底層重新建構了整個系統」。

如上所述，在使用 H800 GPU 訓練 V3 時，DeepSeek 對 GPU 核心運算單元（流處理器多核心，簡稱 SM）進行了客製化改造以滿足特定需求。

在全部 132 個 SM 中，他們專門劃分出 20 個用於處理伺服器間通訊任務，而非計算任務。

這種客製化工作是在 PTX（平行執行緒執行）層級進行的，這是輝達 GPU 的低階指令集。

PTX 運行在接近組譯語言的層面，能夠實現暫存器分配和執行緒 / 執行緒束級別調整等細粒度最佳化。然而，這種精細的控制既複雜又難以維護。

這也是為什麼開發者通常會選擇使用 CUDA 這類高階程式語言，因為它們能為大多數平行程式設計任務提供充分的效能最佳化，無需進行底層最佳化。

但是，當需要將 GPU 資源效能發揮到極致並實現特殊最佳化需求時，開發者就不得不求助於 PTX。

對此，網友 Ian Cutress 表示：「Deepseek 對於 PTX 的使用，並不會消除 CUDA 的技術壁壘。」

CUDA 是一種高階語言。它使程式碼庫的開發和與輝達 GPU 的介面變得更簡單，同時也支援快速迭代開發。

CUDA 可以透過微調底層程式碼（即 PTX）來優化效能，而且基礎庫都已經完備。目前絕大多數生產級的軟體都是基於 CUDA 建構的。

PTX 更類似於可以直接理解的 GPU 組合語言。它工作在底層，允許進行微觀層面的最佳化。

目前，輝達生態的主流，仍然是使用 CUDA。對於確實需要使用 PTX 的場景，以及那些收到足夠報酬來處理這些問題的開發者，我們表示充分的理解和尊重。至於其他開發者，繼續使用 CUDA 或其他基於 CUDA 的高階變體（或 MLIR）才是明智的選擇。

8/11掌握美股科技成長浪潮免費講座
掌握全球財經資訊點我下載APP

‌

文章標籤

deepseek cuda 輝達 gpu

延伸閱讀

鉅亨講座

看更多

講座
公告

上一篇
DeepSeek繞過CUDA實現突破影響AI產業格局
下一篇
〈美股盤後〉Fed利率按兵不動費半驚險收紅

輝達護城河不存在了？傳DeepSeek繞過CUDA壟斷

文章標籤

相關行情

延伸閱讀

鉅亨講座

‌

‌

‌

‌