menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon

美股

亮點一次看 黃仁勳:全世界都錯了!Scaling Law沒撞牆

鉅亨網新聞中心 2025-03-19 10:00

cover image of news article
黃仁勳表示,全世界都錯了,Scaling Law並未撞牆(圖:Shutterstock)

全世界都錯了,Scaling Law 並沒有撞牆!輝達 (NVDA-US) 執行長黃仁勳在 GTC 大會上向全世界這樣宣布。輝達預言,未來每個擁有工廠的公司都會有兩個工廠,一個是用來製造產品的實體工廠,另一個是用於數學運算的 AI 工廠。為此,各類 CUDA-X 軟體庫已準備好引爆各產業的變革。而這場革命的背後,就是輝達的 CUDA 核心及為之配備的驚人算力。

AI 晶片每年一更 Rubin 明年亮相

隨著 Blackwell GPU 全面出貨,黃仁勳也照慣例發布了接下來幾款新產品的路線圖。首先,是對訓練和測試時推理能力進行大幅提升,並將在今年下半年問世的 Blackwell Ultra。根據公司官方部落格,Blackwell 已經讓 DeepSeek-R1 打破了推理表現的世界紀錄。

而與 Blackwell 相比,Blackwell Ultra 晶片還有超強進化!它的顯存從 192GB 提升到了 288GB。而 GB300 NVL72 的 AI 效能,則比 GB200 NVL72 高出 1.5 倍。

最重磅的 Vera Rubin 預計在 2026 年下半年發售。Vera Rubin 有兩個部分,一個稱為 Vera 的 CPU 和一個稱為 Rubin 的新 GPU。兩部分一同使用時,Rubin 可以在推理時達到每秒 50 千萬億次浮點運算,比 Blackwell 速度高出一倍以上。記憶體方面,Rubin 將升級為 HBM4,容量仍為 288GB。不過,Rubin 的頻寬將會有大幅升級,從原來的 8TB/s 提高到 13TB/s,提高了 1.6 倍。不僅如此,NVIDIA 還會為 Rubin 擴展 NVLink,將其吞吐量提升到 260TB/s。機架間的全新 CX9 連結達到了 28.8TB/s。

黃仁勳在現場也推出了 Rubin Ultra 版本。Rubin Ultra NVL576 在 FP4 精度下進行推理任務時,性能達到了 15 ExaFLOPS,在 FP8 精度下進行訓練任務時,性能為 5 ExaFLOPS。比起 GB300 NVL72 效能有 14 倍的提升。配備 HBM4e 內存,頻寬為 4.6 PB/s,支援 NVLink 7,頻寬為 1.5 PB/s,較上一代提升 12 倍。Rubin Ultra NVL576 機架支援 CX9,頻寬為達到了 115.2 TB/s,較上一代提升了 8 倍。預計 2027 年下半年推出。

桌面級「黃金超算」 AI 算力 20000 TFLOPS

蘋果這個月剛發表能跑 6000 億參數的 Mac Studio,反身又要被輝達超越了。

黃仁勳正式推出 Blackwell RTX PRO 工作站和伺服器系列,專為開發者、創意工作者、資料科學家建構和協作提供全方位的 AI 支援。具體來說,其包含了資料中心 GPU、桌面 GPU 及筆電 GPU。這些 GPU 能夠提供卓越的效能、效率,解鎖生成式 AI、智能體 AI 和實體 AI 的巨大潛力。

RTX PRO 6000 Blackwell 採用了輝達串流式多處理器提供高達 1.5 倍吞吐量,第五代 Tensor Core 支援高達每秒 4000 萬億次 AI 運算,第四代 RT Core 效能提升高達前一代的 2 倍。

不僅如此,黃仁勳也帶來了兩款由 Blackwell 驅動的 DGX 個人桌上型 AI 超級電腦。一個是 DGX Spark(原名 Project DIGITS),另一個是 DGX Station。

黃仁勳表示,「AI 已經改變了計算堆疊的每一層,理所當然就會出新一類的電腦——專為 AI 原生開發者設計,並運行 AI 原生程式」。

DGX Spark 可以稱得上,全世界最小的 AI 超級計算機,配備 128GB 記憶體。

核心是 GB10 Grace Blackwell 超級晶片,能夠提供每秒高達 1000 兆次操作的 AI 運算能力,可以用於微調和推理模型。DGX Station 則將資料中心層級的效能,帶到每個人桌面進行 AI 開發。作為首款採用 GB300 Grace Blackwell Ultra 桌面超級晶片構建的系統,DGX Station 配備了高達 784GB 的統一內存,以加速大規模訓練和推理工作負載。

Scaling Law 沒撞牆 2028 年資料中心將達一兆

黃仁勳提到了 Scaling Law。這涉及了三大問題:如何解決數據?如何訓練模型?如何擴展?

預訓練要解決資料問題,後訓練解決的是 human-in-the-loop 問題,而測試時 Scaling,則提升了 AI 的推理。

他表示,去年全世界都搞錯了,Scaling 並沒有撞牆!

從 GPT 開始,到如今的推理 AI,它不再是僅僅預測下一個 token,而是產生 100 倍以上的 token。

這樣推理計算量就更高了,計算速度必須提高 10 倍,如今需要的計算量比去年這個時候我們認為需要的多出 100 倍。那麼,數據該從哪裡來?答案就是強化學習。透過強化學習,我們可以產生大量 token,這涉及了合成數據,為整個產業帶來巨大的運算挑戰。

比較一下 Hopper 的高峰年份和 Blackwell 的第一年,會發現:AI 正處於轉折點。Blackwell 出貨才一年,我們就見證了全球 AI 基礎設施的驚人成長。光是 2024 年,全球 TOP 4 的雲端服務商買進的 Hopper 架構晶片就達到 130 萬塊。

黃仁勳表示,未來資料中心建設將達到一兆美元的規模,他確信,這個時間很快了!根據預測,到 2028 年就能達到這個規模。

如今,通用計算已經走到了盡頭,我們已經到達加速計算臨界點,需要一種新的計算方法。世界正在經歷一個平台轉移,從在通用電腦上運行的手寫軟體,轉向在加速器和 GPU 上運行的機器學習軟體。過去我們編寫軟體並在電腦上運行。未來電腦將為軟體產生 token。

電腦已經成為生成 token 的工具,而不僅僅是文件的檢索工具,黃仁勳稱之為「AI 工廠」。

輝達透過 Grace Hopper 和 Grace Blackwell 架構支援的各種 CUDA-X 庫,為每個科學領域提供了加速框架。例如,解決涉及稀疏矩陣的大型工程模擬問題的 cuDSS,模擬極其複雜的量子系統的 cuQuantum 等等。而這些,僅僅是使加速計算成為可能的庫的樣本。

如今,透過輝達的 900 多個 CUDA-X 庫和 AI 模型,所有人都可以加速科學研究,重塑產業,賦予機器視覺、學習和推理能力。他表示,從業三十年中,最令自己感動的一件事,就是一位科學家對自己說,,「Jensen,因為你的工作,我可以在有生之年完成我的畢生事業」。

既要大量 token 思考又要快速生成

如今,輝達已完成了電腦架構的基本轉型。大約三年前,他們就展示 Grace Hopper(Ranger 系統),但它太大了,需要解決規模擴展的問題。當時的想法是,使用大量商用計算機,將它們連接成一個大型網絡,然而,這種方式會消耗太多電力和能力,根本無 法實現深度學習。

而 HGX 系統架構,徹底解決了縱向擴展的問題。它包含 8 個 GPU,透過 MVLink 8 連接到 CPU 架上,然後再透過 PCI Express 連接,許多這樣的裝置再用 InfiniBand 連接起來。這,就輝達在向外擴展之前所能達到的最大規模了。

然後,他們又做出了世界上效能最高的交換器——NVLink 交換機,使得每個 GPU 能夠同時以全頻寬與其他所有 GPU 通訊。同時,利用液冷將計算節點也壓縮到 1u 的托盤中,為產業帶來了巨變。從此,整合 NVLink 轉向分散式 NVLink,從空氣冷卻轉變為液冷,從每台電腦約 6 萬個組件到每個機架 60 萬組件,120 千瓦功率,全液冷設定。

於是,一個機架裡,就有了一個 Exaflops 等級的超算。輝達的目標,就是建造這塊晶片,先前沒有任何一種製程能實現。它包含 130 兆個晶體管,其中 20 兆用於計算,而解決方法,就是將其分割到 Grace Blackwell NVLink 72 機架中。最終的結果,就是輝達實現了 Scaling,可以說,這是全世界實現最極端的 Scaling。這個過程中的計算量,可能已經達到了記憶體頻寬每秒 570TB。而這台機器,已經達到了每秒百萬萬億次浮點運算。

實際上,推理 Scaling 是一個「終極計算」問題。推理是工廠產生 token 的過程,只有具備極高性能,才會提升服務質量,以及收入和盈利的能力。

產生的 token 越多,AI 就越聰明。但問題是,吞吐時間太長且速率慢,客戶也不願意買單。因此,在運算工廠中,反應時間和吞吐量中間,存在著基本的矛盾關係。

我們需要 NVlink 的根本原因──它讓我們能把這些 GPU 組成一個巨大的 GPU,實現規模的終極 Scaling。

終極摩爾定律:買越多,賺越多

黃仁勳接下來發布了 NVIDIA Dynamo,這是一款開源推理軟體,旨在以最低成本和最高效率加速和擴展 AI 工廠中的推理模型。他將其稱之為「AI 工廠的作業系統」。「正如發電機(Dynamo)推動了工業革命,NVIDIA Dynamo 將會革新 AI 工廠」。

隨著 AI 推理變得越來越主流,AI 模型在每次提示下都會產生成千上萬的 token 來進行「思考」。

如何在提升推理表現的同時,還能不斷降低推理成本?這便是 NVIDIA Dynamo 推出的意義。

NVIDIA Dynamo 是 NVIDIA Triton Inference Server 的下一代產品,它能協調並加速數千個 GPU 之間的推理通信,並使用分散式服務把 LLM 的處理和生成階段分配到不同的 GPU 上。

這樣每個階段都能根據自己的需求單獨優化,確保 GPU 資源能充分利用。在同樣的 GPU 數量下,Dynamo 能讓運行 Llama 模型的 AI 工廠在 Hopper 架構上效能和收入雙雙翻倍。

在 GB200 NVL72 叢集上運行 DeepSeek-R1 模型時,NVIDIA Dynamo 的智慧推理優化還能讓每個 GPU 產生的 token 數量提升超過 30 倍!

為了實現這些推理效能的提升,NVIDIA Dynamo 能根據請求量和類型的變化,動態添加、移除或重新分配 GPU,還能在大型叢集中精準找到特定 GPU 來減少回應運算和路由查詢。

它還能把推理資料卸載到更便宜的記憶體和儲存裝置上,需要時再快速取回,盡量降低推理成本。

黃仁勳表示,未來資料中心都會受限於電力,收入也跟電力掛鉤,所以能效高的架構最重要。接下來,Blackwell 將擴展到 MVLink 72,再加上 Dynamo 軟體,效果將更上一層樓。

他舉例,在推理模型上,Blackwell 的表現直接比 Hopper 高了 40 倍,真的很了不起!「一旦 Blackwell 開始大規模出貨,Hopper 可能連送人都沒人要了。」

黃仁勳說,銷售團隊聽到他這話估計要急了,擔心影響會 Hopper 的銷售量。但他認為,技術進步太快,工作負載又重,像 AI 工廠這樣的大型項目,最好投資在最新版本的技術上,例如 Blackwell,這樣才能跟上潮流,避免落後。

接著,他拿出一個具體的例子來比較:一個 100 兆瓦的 AI 工廠用 Hopper 技術需要 45000 個晶片、1400 個機架,每秒能產出 3 億個 token。而同樣的工廠如果用 Blackwell,雖然晶片數量減少,但效率更高,整體性能更強。他再次調侃道,銷售團隊可能覺得這是在「少賣貨」,但實際上還是之前那個觀點,「 the more you buy, the more you save」(買得越多,省得越多)。

甚至,現在還要更進一步:「the more you buy, the more you make」(買越多,賺越多)。

首個通用機器人模型開源 規模僅 2B

Physical AI 也是今年產業的重點。黃仁勳表示,「預計本世紀末,世界勞動力短缺人數將超過 5,000 萬,而通用機器人的時代已經來臨」。具身智能也遵循著三大 Scaling Law。

資料短缺成為 Scaling 一大難題,輝達 Omniverse 和 Cosmos 能夠同時為具身智慧的訓練,產生大量多樣化、高品質的資料。然後開發者利用 Isaac Lab 透過增強資料集後訓練機器人策略,並透過模仿學習讓機器人透過複製行為來學習新技能,或透過試誤和強化學習 AI 回饋進行學習。

這次,輝達正式官宣了世界首個開源、完全可客製化的通用人形機器人模型——GROOT N1。這款模型的設計從人類認知過程汲取靈感,採用了「雙系統架構」,分別可以進行快思考與慢思考。

在視覺語言模型驅動下,慢思考系統(System 2)能夠對環境和指令進行推理,然後規劃出正確的行動。快思考系統(System 1),可以將上述計畫轉化為機器人精確、連續的動作,包括操縱物體、執行多步驟序列的能力。

值得一提的是,System 1 是基於人類演示資料和 Omniverse 產生大量的合成資料進行訓練的。GROOT N1 可以輕鬆在上見任務中進行泛化,或執行需要長上下文和多種通用技能組合的多步驟任務。例如,抓取、用一隻手臂 / 兩隻手臂移動物體,以及在兩隻手臂之間傳遞物品。

此外,輝達也與 DeepMind、迪士尼研究一起開發下一代開源的 Newton 實體引擎,能夠讓機器人學習如何更精確地處理複雜任務。黃仁勳最後預言:在未來,機器人領域將成為最大的產業。


Empty