梁文鋒親自參與!DeepSeek發最新論文迎戰Grok-3 專家:給開源AI研究帶來最新貢獻
鉅亨網編譯陳韋廷 2025-02-20 14:50

馬斯克周二 (18 日) 發表 Grok-3,號稱「地球上最聰明 AI」,而近期爆紅的 DeepSeek 也沒閒著,在當天發表名為《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》的一項重要論文,介紹一種新的稀疏注意力機制(Natively Sparse Attention,NSA),用於提升長文本訓練和推理的效率,並具備硬體對齊和端到端訓練的特性。
簡單來說,就是教會 AI「一目十行」。這項技術有望大幅提升下一代大語言模型 (LLM),處理長文本的能力,同時還能兼顧效率,可謂是 AI 大模型,里程碑式的進展。
截至周三 (19 日) 下午,這篇推文在 X 上已有超過 180 萬觀看量,且值得一提的是,DeepSeek 創辦人梁文鋒也出現在這篇論文的作者名單中,但在作者排名中只排倒數第二,這意味著他或許只是專案管理者。
這篇論文的第一作者名叫袁景陽 (Jingyang Yuan),是在 DeepSeek 實習期間,完成這篇論文。他目前是北京大學碩士研究生,研究領域包括 LLM、人工智慧在科學中的應用 (AI for Science)。
第二作者是高華佐 (Huazuo Gao),來自廣東,2012 年在華南師範大學附屬中學就讀,就曾獲第 29 屆全國中學生物理競賽一等獎,次年保送至北京大學物理學院。
第三作者是代達劢 (Damai Dai),畢業於重慶市巴蜀中學,高考 697 分進入北京大學,去年博士畢業後加入 DeepSeek,全程參與從 DeepSeek v1 到 v3 的研發。
第四作者為曾旺丁 (Wangding Zeng),2017 年至 2023 年就讀於北京郵電大學人工智慧學院,碩士期間主要學習人工智慧方向,導師為張洪剛,2018 年曾獲全國大學生數學競賽(非數學類)二等獎。
這次 DeepSeek 團隊推出的 NSA 就是為了解決現有稀疏注意力機制的缺點,提高計算效率。
傳統的 Transformer 非常耗記憶體,輸入越長,計算成本就越高,計算複雜度也會隨著序列長度的增加而呈平方級增長,計算成本高昂且延遲大,這便成為 LLM 發展的瓶頸。
如今,有了 DeepSeek 的 NSA,在處理 64k 長度的序列時,在解碼、前向傳播和反向傳播等各個階段都實現了顯著的速度提升,最高可達 11.6 倍。
此外,Deepseek 研究人員還將 NSA 與 FA2 內核進行比較,實證結果顯示 NSA 在前向和後向時間上的執行速度分別快了 9 倍 / 6 倍。
NSA 還支援端到端可訓練稀疏模式,減少預訓練成本。它需要相對較少的 token 來理解事物,這就意味著訓練成本大幅下滑。
業內人士表示,DeepSeek 這篇 NSA 機制的論文內容詳實,涉及的技術細節闡釋清晰,可操作性強,是 DeepSeek 給開源 AI 研究貢獻的最新成果。
- 掌握全球財經資訊點我下載APP
延伸閱讀
上一篇
下一篇