【熱門時事】AI迎接算法時代!巨頭忙迭代,開源成顯學!
2月18日馬斯克口中全世界最聰明大模型Grok-3,終於震撼登場! 20萬塊GPU訓出的模型,實屬全球首次。 果然,Grok-3已火速屠榜多個排行榜,擊敗o3-mini(high)和DeepSeek-R1。三代Grok的訓練計算量竟是Grok-2的10倍,在多項基準測試中,Grok-3在數學(AIME 2024)、科學問答(GPQA)、編碼(LCB)上刷新SOTA,大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。Grok-3 mini的性能基本上領先或媲美其他閉源/開源模型。
其他各大模型近月來迭代不斷,屢有突破。另外,在2月18日同一天,DeepSeek官方在海外社交平臺X上發佈了一篇純技術論文報告,論文主要內容是關於NSA(Natively Sparse Attention,原生稀疏注意力),官方介紹這是一種用於超快速長文本訓練與推理的、硬體對齊且可原生訓練的稀疏注意力機制,用於超快速的長上下文訓練和推理。
DeepSeek表示,通過針對現代硬體的優化設計,NSA加快了推理速度,同時降低了預訓練成本,而不會影響性能。 在一般基準測試、長上下文任務和基於指令的推理上,它的表現與完全注意力模型相當甚至更好。在8卡A100計算集群上,NSA的前向傳播和反向傳播速度分別比全注意力快9倍和6倍,由於減少了記憶體訪問量,NSA在長序列解碼時相較於全注意力模型速度顯著提升。在處理64k長度的序列時,NSA在解碼、前向傳播和反向傳播等各個階段都實現了顯著的速度提升,最高可達11.6倍。
自從DeepSeek在農曆年推出開源模型以來,對華爾街與AI產業都造成深遠影響,南方國家搶著利用其打造各自的應用服務,也讓算力為主的投資視野中,深進到算法時代,各大閉源模型很多都被迫走向開源,可望帶動AI產業應用的蓬勃發展.....
實驗表明,NSA不僅在通用任務和長上下文任務中表現出色,還在鏈式推理等複雜任務中展現了強大的潛力。
相關新聞