訓練時間
科技
Nvidia發展全新nGPT 有望使訓練速度大增20倍
Nvidia (NVDA-US) 研究人員提出了一種新穎的神經網路架構,稱為歸一化 Transformer (nGPT)。研究人員表示,在 nGPT 中,單位範數對所有向量進行歸一化,包括嵌入、多層感知器 (MLP)、注意力矩陣和隱藏狀態。在這一架構中,輸入標記在超球體 (hypersphere) 的表面移動,每一層都為輸出預測貢獻一個位移。
2024-10-21
科技
Nvidia發展全新nGPT 有望使訓練速度大增20倍
Nvidia (NVDA-US) 研究人員提出了一種新穎的神經網路架構,稱為歸一化 Transformer (nGPT)。研究人員表示,在 nGPT 中,單位範數對所有向量進行歸一化,包括嵌入、多層感知器 (MLP)、注意力矩陣和隱藏狀態。在這一架構中,輸入標記在超球體 (hypersphere) 的表面移動,每一層都為輸出預測貢獻一個位移。