【熱門時事】AI迎接算法時代！巨頭忙迭代，開源成顯學！

OpenAI Gemini DeepSeek Qwen 千問技術長 Llama xAI Grok3 尤洋潞晨科技騰訊元寶 anthropic claude

時事上線時間

2025-02-19 15:23:59

2月18日馬斯克口中全世界最聰明大模型Grok-3，終於震撼登場！ 20萬塊GPU訓出的模型，實屬全球首次。果然，Grok-3已火速屠榜多個排行榜，擊敗o3-mini（high）和DeepSeek-R1。三代Grok的訓練計算量竟是Grok-2的10倍，在多項基準測試中，Grok-3在數學（AIME 2024）、科學問答（GPQA）、編碼（LCB）上刷新SOTA，大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。Grok-3 mini的性能基本上領先或媲美其他閉源/開源模型。

其他各大模型近月來迭代不斷，屢有突破。另外，在2月18日同一天，DeepSeek官方在海外社交平臺X上發佈了一篇純技術論文報告，論文主要內容是關於NSA（Natively Sparse Attention，原生稀疏注意力），官方介紹這是一種用於超快速長文本訓練與推理的、硬體對齊且可原生訓練的稀疏注意力機制，用於超快速的長上下文訓練和推理。

DeepSeek表示，通過針對現代硬體的優化設計，NSA加快了推理速度，同時降低了預訓練成本，而不會影響性能。在一般基準測試、長上下文任務和基於指令的推理上，它的表現與完全注意力模型相當甚至更好。在8卡A100計算集群上，NSA的前向傳播和反向傳播速度分別比全注意力快9倍和6倍，由於減少了記憶體訪問量，NSA在長序列解碼時相較於全注意力模型速度顯著提升。在處理64k長度的序列時，NSA在解碼、前向傳播和反向傳播等各個階段都實現了顯著的速度提升，最高可達11.6倍。

自從DeepSeek在農曆年推出開源模型以來，對華爾街與AI產業都造成深遠影響，南方國家搶著利用其打造各自的應用服務，也讓算力為主的投資視野中，深進到算法時代，各大閉源模型很多都被迫走向開源，可望帶動AI產業應用的蓬勃發展.....

實驗表明，NSA不僅在通用任務和長上下文任務中表現出色，還在鏈式推理等複雜任務中展現了強大的潛力。

【熱門時事】AI迎接算法時代！巨頭忙迭代，開源成顯學！

相關新聞

‌

‌

‌

‌

【熱門時事】AI迎接算法時代！巨頭忙迭代，開源成顯學！

相關新聞