鉅亨網新聞中心
輝達 (NVDA-US) 正在為中國市場研發一款名為 “B30” 的降規版 AI 晶片,這款晶片將首度支持多 GPU 擴充,允許用戶通過連接多組晶片來打造更高性能的運算集群。
B30 晶片預計將採用最新的 Blackwell 架構,使用 GDDR7 顯存,而非 HBM,也不會採用台積電的先進封裝技術。
據「AI 雲原生智能算力架構」,採用 GB20X 晶片,也就是 RTX 50 系列的晶片,其售價預計在 6,500 美元至 8,000 美元之間,遠低於 H20 晶片的 1 萬至 1.2 萬美元。
不少人認為 “多 GPU 擴展” 能力指的是 NVLink,但 NVIDIA 已在其消費級 GPU 晶片中已經取消了 NVLink 支持,因此 B30 是否支持 NVLink 目前還不能確定。
有媒體稱 B30 晶片的多 GPU 互連功能可能基於 NVIDIA 的 ConnectX-8 SuperNICs 技術,此技術曾在 Computex 2025 上展示,用於連接 RTX Pro 6000 GPU。
當然輝達可能已經修改了現有的 GB202 晶片——即 RTX 5090 上使用的晶片,並啟用了 NVLink 支持。
輝達 CEO 黃仁勳曾多次公開表示,中國是全球最大的 AI 市場之一,擁有全球一半的 AI 研究人員,拿下中國市場將引領全球 AI 發展。但美國的禁令使得輝達在中國的市占受限制,輝達只能不斷調整晶片設計,以符合美國的出口管制規定。
顯存與帶寬的戰略取捨
H20 憑借 96GB HBM3 顯存和 4.0TB/s 帶寬,在大模型推理中可直接加載全量參數(如 DeepSeek-R1 671B),避免數據分片導致的延遲。而 B30 採用 GDDR7 顯存,雖通過動態壓縮技術將有效帶寬提升至 1.2TB/s,但在處理高精度 FP16 計算時仍存在瓶頸。例如,H20 在 4096 長文本輸入場景下的吞吐量達 961.45 token/s(192 併發),而 B30 受限於顯存帶寬,同場景性能僅為 H20 的 60%。
算力與能效的博弈
B30 的 FP32 算力(200 TFLOPS)是 H20(44 TFLOPS)的 4.5 倍,在科學計算和傳統訓練任務中更具優勢。但 H20 的 FP16 稀疏算力(148 TFLOPS)和 FP8 支持(296 TFLOPS)使其在生成式 AI 推理中效率更高。例如,H20 在 ResNet-50 訓練中的能效比(TOPS/W)為 H20 的 82%,但 B30 通過降低功耗(250W vs 400W)實現單位成本下降 58%。
互聯技術的代際差距
H20 的 NVLink 900GB/s 互聯帶寬是 B30 ConnectX-8 方案(100GB/s)的 9 倍,在多卡集群中表現出顯著優勢。測試顯示,8 卡 H20 集群的分布式訓練通信效率達 NVLink 理論值的 92%,而 B30 集群在 16 卡以上時延遲飆升,效率下降至 70%。這使得 H20 更適合千億參數模型訓練,而 B30 在中小型集群中性價比更高。
價格策略與生態綁定
B30 以 6500-8000 美元的售價直接對標華為昇騰 910B(約 5000 美元),通過 CUDA-X 軟件棧的深度優化實現主流框架無縫遷移。例如,百度飛槳團隊針對 B30 顯存限制開發的動態分配算法,使 Transformer 模型推理速度提升 25%。而 H20 憑借成熟的 CUDA 生態和 NVLink 互連,仍占據高端推理市場,但其 1.2 萬 - 1.5 萬美元的售價導致部分企業轉向國產替代方案。
合規性與技術封鎖的角力
B30 透過精確校准參數(如算力密度 69.8 TFLOPS/mm²、互聯帶寬 590GB/s)完全符合美國出口管制要求,而 H20 因 FP32 算力(44 TFLOPS)和顯存帶寬(4.0TB/s)接近限制閾值,面臨被禁風險。這種 “特供” 策略使 NVIDIA 在中國市場維持 13% 的營收占比(2024 年 H20 銷售額 170 億美元),同時通過技術標準割裂絞殺國產晶片生存空間。
性能與成本的市場選擇
在訓練市場,昇騰 910B 憑借 376 TFLOPS 的 FP16 算力和自研光互連技術,集群性能已超越 H20 15%。而 B30 在推理市場通過多卡擴展(100 塊 B30 集群達 H20 集群 85% 性能,成本僅 60%)擠壓寒武紀思元 590 等國產晶片的市占。但 H20 的 141GB 版本憑借超高顯存容量,仍在醫療影像分析等垂類場景中不可替代。
顯存帶寬的致命弱點
B30 的 GDDR7 顯存帶寬(1.7TB/s)僅為 H20 HBM3(4.0TB/s)的 42.5%,導致其在處理高精度計算時效率低下。例如,在 Stable Diffusion 圖像生成任務中,B30 的單卡吞吐量僅為 H20 的 55%,而多卡集群因互聯延遲增加,整體效率進一步下降至 75%。
中國國產替代的技術突破
華為昇騰 910B 通過 3D Fabric 封裝技術實現 376 TFLOPS FP16 算力,性能顯著優於 B30,且支持 PyTorch 框架 95% 的兼容性。寒武紀思元 590 則以 2TB/s 顯存帶寬(超越 B30)和低 40% 的價格,在邊緣計算領域實現突破。此外,公ㄨㄛˊ國產晶片通過訓推分離架構,在金融風控等定制場景中逐步替代進口。
地緣政治與技術標準
美國最新出口管制將 “先進的中華人民共和國晶片” 列為重點監管對象,試圖通過技術標準割裂維持優勢。B30 的推出本質是美國技術封鎖的 2.0 版本,通過 “特供” 晶片維持依賴,同時絞殺中國國產晶片生存空間。中國則透過 “東數西算”“信創工程” 等政策推動全棧國產化,構建自主算力生態。
B30 與 H20 對比折射出美中 AI 博弈複雜性:
總之,B30 與 H20 的技術妥協與市場策略,不僅是輝達在出口限制下的生存之道,更是中國 AI 產業轉型升級的試金石。其對比分析為中國晶片產業突破技術封鎖提供了鏡鑒,也為全球科技產業鏈重構提供了新的思考維度。
上一篇
下一篇
