DeepSeek R2核心技術曝光:ACL頂級大獎論文揭秘 長文處理能力狂飆11倍
鉅亨網新聞中心
今年,全球自然語言處理領域的頂級會議 ACL 公布了最佳論文,由 DeepSeek 與北京大學聯合完成的《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》一文斬獲「最佳論文獎」。

業界人士指出,這項由 DeepSeek 和北京大學研究員主導完成的研究,幾乎確定將成為 DeepSeek 未來系列大模型的核心競爭力之一。
此會議被譽為自然語言處理領域的「世界杯」,其頂尖技術常迅速被全行業採納,這項技術預示著 DeepSeek 下一代模型的核心方向。這篇論文的第一作者是北京大學碩轉博研究生袁境陽,通訊作者則是 DeepSeek 的梁文鋒。
目前大型語言模型處理長文本面臨巨大挑戰。其核心「注意力機制」在處理數十萬字長文本時,因每個詞都需與之前所有詞進行比對,導致計算量呈平方級暴增。這不僅使得模型響應緩慢,也造成訓練與推理成本居高不下。特別是在 64k 上下文長度下,傳統注意力機制中的 softmax 計算甚至佔據高達 70%–80% 的推理延遲。
NSA 技術
為了解決這個問題,DeepSeek 與北京大學共同提出了原生稀疏注意力 (Native Sparse Attention, NSA) 技術。NSA 的核心思想是模仿人類閱讀長篇報告時「抓重點」的智慧,透過動態分層的稀疏策略,平衡計算密度與資訊保留。
其主要策略包括:
• 粗讀摘要 (Token Compression):NSA 會將長文本中較早的內容打包成「壓縮塊」,如同快速瀏覽章節摘要,以快速掌握全局的粗略資訊,確保模型不會遺忘重要的前提內容。
• 精讀重點 (Token Selection):在理解大意後,模型會根據當前處理需求,動態地「選中」之前最相關的原文細節塊進行精讀。例如,回答關於特定章節的問題時,會重點分析該章節原文。
• 強記最近 (Sliding Window):如同人類能清晰記得剛讀過的部分,NSA 也保留一個「滑動窗口」,對近期上下文資訊保持最精細的注意力。
最重要的是,NSA 透過一個「門控機制」動態學習如何平衡這些策略。此外,NSA 是「原生可訓練」(natively trainable) 的。這意味著模型從預訓練階段就開始學習這種高效的注意力分配方式,與模型其他部分完美協同,最終實現了性能與效率的雙重飛躍。整個架構也針對現代 GPU 硬體進行了深度優化。
能力加強及速度提升
實測數據證明了 NSA 的強大實力。在 MMLU、GSM8K 等多項通用知識、推理和程式碼能力測試中,搭載 NSA 的 27B 模型在 9 項指標中的 7 項都擊敗了傳統全注意力模型。尤其在考驗推理能力的 DROP 和 GSM8K 測試中,提升顯著,這表明透過稀疏化濾除雜訊資訊,反而可能讓模型更專注於關鍵邏輯。在更複雜的多跳問答任務上,NSA 也相較全注意力有顯著提升。
在考驗長文本理解的經典「大海撈針」測試中,NSA 在 64k(約 8 萬字) 的超長文本中實現了 100% 的資訊檢索準確率,無論資訊藏在何處都能精準找到。在 LongBench 評測中,NSA 的平均分也超越了包括全注意力在內的大部分基準方法。甚至在美國數學邀請賽 (AIME 24) 的數學推理任務中,NSA 模型在 8k 及 16k 上下文設置下的準確率也遠超全注意力模型。
與目前最有效率的全注意力實現 FlashAttention-2 相比,NSA 在處理 64k 長度序列時,前向計算加速 9.0 倍,反向傳播加速 6.0 倍。在使用者最關心的生成回復階段 (解碼),推理速度更是驚人地提升了 11.6 倍。這表示過去你需要等半分鐘才能獲得的長篇分析,未來可能僅需幾秒鐘就搞定了。
這項由 DeepSeek 和北京大學研究員主導完成的研究,幾乎確定將成為 DeepSeek 未來系列大模型的核心競爭力之一。NSA 已經在 27B、MoE 架構上完成了完整的預訓練驗證,其訓練框架基於 DeepSeek 自研的 MoE 系統,並兼容 GQA 架構和 FlashAttention-2 內核,關鍵核心也使用 Triton(輝達開源推理服務框架) 重寫。這意味著它不僅僅是一個學術研究,而是一個「準備好落地」的系統模組。
- EBC全球百萬美金交易大賽 立即體驗
- 掌握全球財經資訊點我下載APP
上一篇
下一篇