R2
A股
中國 DeepSeek 周四 (22 日) 再次上演「低調震撼」,這家常讓矽谷巨頭側目的公司悄悄在微信群推送了 V3.1 版本更新,但在 X 平台等社群媒體沉默未宣傳,引發一連串疑問,因 R1 可是今年 1 月橫空出世、引爆中國開源 AI 浪潮的王牌模型,它的「隱身」瞬間點燃了業界的猜測熱潮。
科技
中國人工智慧 (AI) 新創公司深度求索(DeepSeek)尚未決定旗下下一代大型語言模型 R2 的正式發表時間,原因是執行長梁文峰對模型目前的性能表現仍不滿意。根據《The Information》周四 (26 日) 引述兩位知情人士報導,R2 原計畫於 5 月推出,作為大受歡迎的 R1 推理模型後繼版本,並希望能在程式碼生成與非英語語言推理方面有所突破。
美股雷達
摩根士丹利 (MS-US) 近日發布一份研究報告,提前揭露中國人工智慧(AI)新創公司 DeepSeek 即將推出的最新大語言模型 R2。儘管篇幅不長,報告內容卻資訊量很多,引起 AI 圈關注。根據報告,DeepSeek R2 模型總參數高達 1.2 兆,是前一代 R1 的兩倍以上。
科技
DeepSeek 周一 (24 日) 晚上悄悄推出最新的 DeepSeek-V3-0324 模型,雖非外界預期的 R2 模型,但仍然有不少亮點,從網友實測後的反應來看,升級後的 V3 編碼能力已經接近 Claude3.7,數學能力也有提升,能像推理模型一樣能夠解題。
美股雷達
本星期是中國 AI 新創公司 DeepSeek 的開源周,DeepSeek 則在第三天,發佈了 DeepGEMM,是一個支援稠密和 MoE 模型的 FP8 GEMM(通用矩陣乘法) 計算庫,僅憑 300 行代碼就超過專家優化的內核,可為 V3/R1 的訓練和推理提供強大支援,更令人興奮的是,DeepSeek-R2 有望在 5 月前提前發佈。
A股
路透周二 (25 日) 援引知情人士消息報導,中國人工智慧 (AI) 新創公司深度求索 (DeepSeek) 原本計劃在 5 月推出新一代 AI 模型「R2」,但現在該公司希望盡快推出。據了解,新模型在寫程式和多語言推理方面的能力有所提升。DeepSeek 的成功可能會徹底改變 AI 行業。