DeepSeek發表NSA技術 能讓AI模型進一步降本增效
鉅亨網新聞中心 2025-02-19 09:20

馬斯克 xAI 發布新一代聊天機器人 Grok 3 之後,DeepSeek 不甘示弱宣布推出用於超快速長文本訓練訓練與推理的「原生稀疏注意力」(Native Sparse Attention,簡稱 NSA)。
DeepSeek 18 日在海外社交平台 X 上發佈了一篇純技術論文報告,稱 NSA 針對現代硬件進行了優化設計,能夠加速推理過程,同時降低預訓練成本,且不犧牲性能。
論文稱,NSA 在通用基準測試、長文本任務和基於指令的推理中均能達到或超越全注意力模型的表現。稀疏注意力為提高效率同時保持模型能力提供了一個有前景的方向。
實驗顯示,NSA 不僅在通用任務和長上下文任務中表現出色,還在例如鏈式推理等複雜任務中展現強大的潛力,且推理速度加快。
在通用基準測試、長文本處理以及基於指令的推理任務中,NSA 的表現均能達到甚至超越傳統全注意力(Full Attention)模型的水準,以性價比極高的方式,罕見地在訓練階段應用稀疏性,在訓練推理場景中顯著提升速度,特別是在解碼階段實現高達 11.6 倍的提升。
透過高效的長序列處理能力,NSA 使模型能夠直接處理整本書、代碼庫或多輪對話(如千輪客服場景),擴展大語言模型在文檔分析、代碼生成、複雜推理等領域的應用邊界。例如,Gemini 1.5 Pro 已展示長上下文的潛力,NSA 能進一步降低這類模型的訓練與推理成本。
在這篇名題為「原生稀疏注意力:硬體對齊且可原生訓練的稀疏注意力機制」(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的論文署名中,DeepSeek 創始人梁文鋒也是共同作者。
自 1 月 20 日發佈 DeepSeek-R1 並撼動 AI 圈以來,這是 DeepSeek 唯一發佈的技術動態。
- 最新遺產稅怎麼算?傳承必知重點有哪些?
- 掌握全球財經資訊點我下載APP
延伸閱讀
上一篇
下一篇