大型語言模型
美股雷達
據《商業內幕》周四 (4 日) 報導,前 Meta (META-US) 首席 AI 科學家楊立昆離職創業,追求更大膽的 AI 願景。盼研發能理解物理世界、具備記憶、推理和規劃能力的 AI 系統。上月,楊立昆在 LinkedIn 宣布離開 Meta,結束 12 年任期。
美股雷達
傳出最近即將離職的 Meta(META-US) 首席 AI 科學家、圖靈獎得主楊立昆表示,全球大型科技公司投入巨額資金在 ChatGPT、Google Gemini、Meta Llama 這類大型語言模型 (LLM),是個錯誤。楊立昆 16 日在紐約布魯克林的一場活動上說:「LLM 很棒、很實用,也確實值得投入資源,而且未來會有更多人使用它們。
中國人工智慧(AI)領域再添重磅人事變動。前 DeepSeek 研究員羅福莉正式宣布加入小米 (01810-HK) ,並在朋友圈發文引發業界關注。根據《澎湃新聞》週三(12 日)報導,羅福莉表示:「智能終將從語言邁向物理世界。我正在 Xiaomi MiMo,和一群富有創造力、才華橫溢且真誠熱愛的研究員,致力於構建這樣的未來,全力奔赴我們心目中的 AGI!」(圖:澎湃新聞)Xiaomi MiMo 是小米首個推理大型語言模型專案,羅福莉的發言也被視為對外界傳聞的正式回應。
美股雷達
隨著 ChatGPT-5、Claude 3.5、Gemini 1.5 Pro 等推理型大語言模型(LRM)日益普及,來自明尼蘇達大學、萊斯大學、史蒂文斯理工學院以及 Lambda Inc 最新研究發現,這些模型在執行長鏈推理任務時,仍存在一個令人震驚的漏洞「詞語沙拉」(Word Salad)。
美股雷達
阿里巴巴 (09988-HK) 近日推出了一項新的運算資源整合方案,據稱可使其人工智慧(AI)模型所需的輝達 (NVDA-US) 圖形處理器(GPU)數量減少高達 82%。根據《南華早報》報導,「Aegaeon」已在阿里雲的模型市集中進行超過三個月的測試。
歐亞股
三星在人工智慧(AI)領域的研發持續亮眼。最新發表的 Tiny Recursive Model(TRM)以小模型之姿,效能已超越部分參數量高達 10,000 倍的大型語言模型(LLM)。TRM 僅有 7 百萬個參數,相較於大型 LLM 的數十億參數,規模小了數個數量級。
美股雷達
據《彭博》周三 (24 日) 報導,隨著企業競相採用 AI 工具,加拿大 AI 獨角獸企業 Cohere 獲得新一輪投資,估值達到約 70 億美元。加拿大商業發展銀行和 Nexxus Capital Management 在該公司最新 5 億美元募資的第二輪中承諾投資 1 億美元。
科技
人類要控制 AI 聊天機器人、利用其來散播假消息可能非常容易。澳洲研究人員近日就發現,知名 AI 聊天機器人可以被「設定成」以權威口吻回答健康問題,並散布假資訊,甚至附上虛假的醫學期刊引用,令使用者誤信其可靠。根據《路透》報導,研究團隊警告,若 AI 系統缺乏完善的內部防護措施,這些被廣泛使用的 AI 工具極易被濫用,用來大量生成危險的錯誤健康資訊。
A股
在電腦視覺領域頂尖會議 CVPR 2025 上,騰訊 (00700-HK) 正式宣布其「混元 3D 2.1 大模型」全面開源。這是全球首個全鏈路開源的工業級 3D 生成模型,擁有高幾何精度與物理擬真渲染能力,為 AI 驅動的 3D 建模技術開啟全新時代。
美股雷達
高盛分析師 Vinay Viswanathan 在本周給客戶的報告中指出,受大規模投資於大型語言模型的 GPU 設施的推動,資料中心市場預計將在今年創下紀錄。然而,他也警告,儘管「資料中心行業近期出現了復甦跡象」,但他們仍對長期供需平衡持謹慎態度。
美股雷達
蘋果近期發表一項具指標性的 AI 研究報告,震撼揭露目前市場上號稱具備「推理能力」的 AI 模型,如 Claude Thinking、DeepSeek-R1、o3-mini,實際上只是進行「進階記憶遊戲」,根本談不上真正的邏輯推理。為了避開常見的訓練資料污染問題,蘋果研究團隊自訂了一組從未出現在資料集中的 邏輯謎題,用來測試 AI 模型是否具備真正的 理解與推理能力。
美股雷達
人稱「網路女王」、曾早期投資 Meta、Spotify 與 Airbnb 等知名企業的矽谷明星投資人瑪麗 · 米克 (Mary Meeker) 警告,OpenAI 等美國人工智慧 (AI) 公司正面臨中國 DeepSeek 等更便宜競爭對手的威脅,由於大型語言模型訓練成本飆升,但定價能力承壓,商業模式前景不明。
美股雷達
在 Google I/O 2025 大會中,除了 Gemini 2.5 系列與 Veo 3 模型掀起話題之外,Google (GOOGL-US) 也悄然發布旗下首款擴散模型(Diffusion Model)Gemini Diffusion。雖非主舞台焦點,但這款新模型憑藉超高速語言生成能力與技術潛力,迅速引起 AI 社群高度關注。
自 DeepSeek 橫空出世以來,中國 AI 產業版圖產生顯著變化。這不僅打破了過去中美大型語言模型主導的格局,也讓本土大型語言模型市場進入重新洗牌的階段。如今,包括字節跳動、阿里巴巴 (09988-HK) 、階躍星辰、智譜 AI 與 DeepSeek 等五家企業逐漸穩定成形,被外界視為中國 AI 領域的「五強格局」,產業正加速走向技術深化與應用落地的整合期。
A股
中國科技巨頭小米 (01810-HK) 日前在官方公眾號「Xiaomi MiMo」無預警宣布,正式開源旗下首款推理大型語言模型 MiMo-7B,消息一出震撼整個人工智慧(AI)社群。這款模型從開發到釋出過程全程保密,未曾流出任何消息。根據官方釋出的技術報告,MiMo-7B 僅使用 70 億參數,卻在兩大關鍵任務:數學推理與程式碼生成中,分別超越 OpenAI 的 o1-mini 以及阿里巴巴 (09988-HK) 320 億參數的 Qwen QwQ-32B-Preview。
美股雷達
路透周二 (11 日) 援引兩名知情人士消息報導,臉書母公司 Meta Platforms(META-US) 正在測試與台積電 (2330-TW)(TSM-US) 合作生產的自研人工智慧 (AI) 訓練晶片,目的是要降低對輝達 (NVDA-US) 的依賴、減少基礎設施成本。
科技
美媒《CNBC》周五 (14 日) 報導,隨著中國新創公司深度求索 (DeepSeek) 推出更便宜且高效的人工智慧 (AI) 模型,可能會重塑資料中心的需求,進一步促進這一已經蓬勃發展的行業。資料中心是數位轉型和大型語言模型 (LLMs) 訓練的核心基礎設施,分析師長期預測其將持續成長。
美股雷達
Alphabet 旗下的 Google 周三 (5 日) 宣布更新其 Gemini 系列的大型語言模型 (LLM),並推出一款全新的低成本人工智慧 (AI) 模型,以對抗來自中國競爭對手 DeepSeek 的低價產品。Google 現在提供多個版本的 Gemini 模型,根據價格和效能有所區別。
A股港股
人工智慧 (AI) 領域的發展日新月異,其中,大型語言模型 (LLM) 更是備受矚目。在這一領域中,一家名為 DeepSeek 的中國新創公司異軍突起,不僅在技術上取得了重大突破,更以其獨特的發展模式,引起美國矽谷的關注和震驚。據報導,訓練成本極低的「DeepSeek-V3」只用了 2048 張 H100 的 GPU 集群,且用時僅 53 天。