震撼!輝達NVFP4格式突破4位元極限 AI訓練效率翻倍
鉅亨網新聞中心
輝達 (NVDA-US) 發布其突破性的 NVFP4 浮點格式,宣稱能以 4 位元(4-bit)的速度與效率,實現 16 位元(16-bit)的訓練精準度。這項技術的問世,不僅標誌著大型語言模型(LLM)開發的重大飛躍,更為 AI 訓練的未來開啟了全新的篇章。

過去,AI 訓練主要依賴 16 位元或 32 位元的高精度浮點格式。儘管後訓練量化(PTQ)已證明 4 位元量化能顯著提升推理吞吐量,但在要求極高穩定性和收斂性的預訓練階段,模型仍不得不依賴 BF16 或 FP8 等更高精度格式。
然而,AI 訓練是極其耗費運算資源、電力和時間的過程。在有限的預算和 GPU 週期下,如何最大化訓練效率,成為所有 AI 開發者面臨的核心挑戰。
輝達發布的 NVFP4 技術,正是為了解決這一痛點。透過將模型權重和活化值的精度降低到僅 4 個位元,NVFP4 能顯著減少記憶體需求、提升算術運算吞吐量,並優化通訊效率。
這使得 AI 工廠能夠在相同的硬體配置下,處理更多的數據和代幣,從而加速收斂週期,並支援更大規模模型的快速開發,最終擴展 AI 所能達到的前沿領域。
輝達為 NVFP4 開發了一套專用的預訓練方法,旨在解決大規模訓練中的動態範圍、梯度波動和數值穩定性等核心挑戰。其關鍵技術包括:
微區塊縮放(Micro-block Scaling):輝達 Blackwell 架構原生支援 NVFP4 格式。與先前的 MXFP4 格式不同,NVFP4 將微區塊大小從 32 個元素減少到 16 個,讓每一小組元素共享一個共同的縮放因子。這種更精細的粒度設計,能最大限度地減少異常值的影響,降低量化誤差,並大幅提升整體模型準確性。
E4M3 高精度區塊編碼:縮放因子的精確度對於量化品質至關重要。NVFP4 採用更高精度的 E4M3 縮放因子,並帶有額外的尾數位,相較於 MXFP4 僅限於 2 的冪次方(E8M0),這使得數值表示更為精準,能更好地利用有限的量化區間。
張量分佈重塑:預訓練期間的梯度和活化值往往帶有較大的異常值,這會影響低精度量化。輝達透過對 GEMM(通用矩陣乘法)輸入應用哈達瑪變換(Hadamard transforms),將張量分佈重塑為更接近高斯分佈的形態。這種方法能平滑異常值,使張量更容易被準確表示,並在整個訓練過程的前向和後向傳播中保持透明。
量化保真度維持:為確保訓練的穩定性與效率,NVFP4 技術採用了能夠在前向傳播與後向傳播之間保持一致性的量化方法。例如,選擇性二維塊式量化等技術,有助於在整個訓練週期中維持張量表示的對齊,最大程度地減少信號失真,並增強整體穩健性。
隨機舍入(Stochastic Rounding):與傳統的確定性舍入不同,隨機舍入確保梯度以機率方式隨機向上或向下舍入,其機率與數值距離兩個可表示值之間的距離成正比。這一步驟對於減少舍入偏差,維持訓練期間的梯度流至關重要。
●支援兆級代幣規模完整預訓練
為驗證 NVFP4 的效能,輝達在一個類似於 NVIDIA Nemotron Nano 2 的 120 億參數混合 Mamba-Transformer 模型上進行了實驗。該模型在一個包含 10 兆代幣的大規模數據集上進行了完整的預訓練。
實驗結果顯示,使用 NVFP4 從頭開始訓練的 12B 模型,其收斂曲線與作為基準的 FP8 模型高度吻合,且在訓練過程中沒有出現通常困擾超低精度訓練的不穩定或發散問題。這證明了 NVFP4 支援兆級代幣規模完整預訓練的能力。
此外,輝達將使用 NVFP4 預訓練的模型與 FP8 基準模型在一系列下游任務和智慧領域進行了比較。結果表明,NVFP4 的性能在所有領域都與 FP8 不相上下,證明了其有效性與可靠性。
輝達正與亞馬遜雲端科技(AWS)、Cohere、Google 雲端、Kimi AI、微軟 AI、Mistral、OpenAI、Perplexity、Reflection 和 Runway 等領先組織積極合作,共同探索 NVFP4 的潛力,將更加鞏固其在 AI 技術領域的領先地位,也預示著未來 AI 訓練將邁向一個更高效、更節能的 4 位元時代。
- EBC全球百萬美金交易大賽 立即體驗
- 掌握全球財經資訊點我下載APP
上一篇
下一篇