大語言模型
DeepSeek 在開源周第四天一連更新 DualPipe、EPLB 以及深入分析 V3/R1 模型中計算與通信重疊機制的優化並行策略等三項專案,讓大模型訓練更快,成本更低,還能保持頂尖性能,值得一提的是,DualPipe 是由 Jiashi Li、Chengqi Deng 和梁文峰共同研發。
最新研究顯示,新一輪 AI 熱潮將引發晶片半導體產業波動,今年全球 AI 晶片規模將超過 1500 億美元,2027 年增至 4000 億美元,最保守估計執亦達 1100 億美元。德勤中國日前發表《技術趨勢 2025》報告指出,多達 7 成企業正在極探索或應用大語言模型 (LLM)。
美股雷達
最新研究顯示,全球 AI 算力持續提升,因輝達與超微半導體等 AI 晶片廠商紛紛推出加速器,加上一些新興勢力開始製造晶片,其中大語言模型最愛使用輝達 (NVDA-US) A100 晶片,谷歌 (GOOGL-US) 擁有逾 100 萬個跟 H100 晶片相當的算力。
科技
Yushan.AI Corporation 宣布,微軟前亞洲研究院副院長田江森博士正式加盟公司,擔任首席人工智慧科學家,全面領導公司在大語言模型(LLM)領域的技術發展。田江森博士的加入,標誌著 Yushan.AI 在全球人工智慧技術領域邁出了重要一步。
美股雷達
一項新研究表明,OpenAI 的 GPT-4 有可能是比人類更好的金融分析師。這些發現可能顛覆金融服務業,與其他商業部門一樣,金融服務業正在競相採用生成式人工智慧技術。根據芝加哥大學布斯商學院進行的研究,大型語言模型在分析財務報表,並根據這些報表做出預測方面,做得更好。
美股雷達
臉書母公司 Meta(META-US) 周四 (19 日) 宣布推出新一代大語言模型(LLM) Llama 3,共有 80 億和 700 億參數兩種版本,用了 24000 塊 GPU、15 萬億個 token 訓練訓練的 Llama 3 一亮相便登上開源大模型鐵王座,而隨著推理編碼大幅提升,代碼和權重全開源,加上 4000 億參數的版本也正在開發,專家認為 4000 億參數的版本推出後將是全球首個開源 GPT-4 級別的模型。