‌

大型語言模型

‌

‌
‌

‌

2025-12-15

12-15
不只賣晶片！輝達新一代開源AI模型Nemotron 3正式亮相
《路透》報導，輝達 (NVDA-US) 周一 (15 日) 發布新一代開源人工智慧 (AI) 模型，推出第三代「Nemotron」大型語言模型系列，主打效能更快、成本更低、能力更強，正值中國 AI 實驗室的開源模型在全球科技圈迅速擴散之際。輝達以提供 AI 訓練晶片聞名，相關晶片被 OpenAI 等公司用於訓練封閉式模型並進行商業化，但該公司同時也提供多款開源模型，涵蓋物理模擬、自動駕駛等應用，供研究人員或企業使用，包括 Palantir Technologies(PLTR-US) 等公司，已將輝達模型整合至自家產品中。
‌
‌
‌
‌
‌

2025-12-05

12-05美股雷達
楊立昆離開Meta創業追求世界模型祖克柏認為這是未來但超出Meta範圍
據《商業內幕》周四 (4 日) 報導，前 Meta (META-US) 首席 AI 科學家楊立昆離職創業，追求更大膽的 AI 願景。盼研發能理解物理世界、具備記憶、推理和規劃能力的 AI 系統。上月，楊立昆在 LinkedIn 宣布離開 Meta，結束 12 年任期。
‌
‌
‌
‌
‌

2025-11-18

11-18美股雷達
楊立昆警告：當前的AI熱潮根本走錯路 LLM是死路一條
傳出最近即將離職的 Meta(META-US) 首席 AI 科學家、圖靈獎得主楊立昆表示，全球大型科技公司投入巨額資金在 ChatGPT、Google Gemini、Meta Llama 這類大型語言模型 (LLM)，是個錯誤。楊立昆 16 日在紐約布魯克林的一場活動上說：「LLM 很棒、很實用，也確實值得投入資源，而且未來會有更多人使用它們。
‌
‌
‌
‌
‌

2025-11-12

11-12
前DeepSeek研究員羅福莉宣布加盟小米！領軍Xiaomi MiMo推進AI戰略
中國人工智慧（AI）領域再添重磅人事變動。前 DeepSeek 研究員羅福莉正式宣布加入小米 (01810-HK) ，並在朋友圈發文引發業界關注。根據《澎湃新聞》週三（12 日）報導，羅福莉表示：「智能終將從語言邁向物理世界。我正在 Xiaomi MiMo，和一群富有創造力、才華橫溢且真誠熱愛的研究員，致力於構建這樣的未來，全力奔赴我們心目中的 AGI！」(圖：澎湃新聞)Xiaomi MiMo 是小米首個推理大型語言模型專案，羅福莉的發言也被視為對外界傳聞的正式回應。
‌
‌
‌
‌
‌

2025-11-08

11-08美股雷達
AI知道自己在「瞎說」但無法停下來！研究：浪費算力又花錢
隨著 ChatGPT-5、Claude 3.5、Gemini 1.5 Pro 等推理型大語言模型（LRM）日益普及，來自明尼蘇達大學、萊斯大學、史蒂文斯理工學院以及 Lambda Inc 最新研究發現，這些模型在執行長鏈推理任務時，仍存在一個令人震驚的漏洞「詞語沙拉」（Word Salad）。
‌
‌
‌
‌
‌

2025-10-19

10-19美股雷達
阿里巴巴讓AI少用輝達GPU 82%！阿里雲宣布全新運算資源整合方案
阿里巴巴 (09988-HK) 近日推出了一項新的運算資源整合方案，據稱可使其人工智慧（AI）模型所需的輝達 (NVDA-US) 圖形處理器（GPU）數量減少高達 82%。根據《南華早報》報導，「Aegaeon」已在阿里雲的模型市集中進行超過三個月的測試。
‌
‌
‌
‌
‌

2025-10-10

10-10歐亞股
超越DeepSeek、Gemini 與 OpenAI！三星AI小模型TRM超強
三星在人工智慧（AI）領域的研發持續亮眼。最新發表的 Tiny Recursive Model（TRM）以小模型之姿，效能已超越部分參數量高達 10,000 倍的大型語言模型（LLM）。TRM 僅有 7 百萬個參數，相較於大型 LLM 的數十億參數，規模小了數個數量級。
‌
‌
‌
‌
‌

2025-09-24

09-24美股雷達
輝達也看好！加拿大AI獨角獸Cohere估值飆至70億美元
據《彭博》周三 (24 日) 報導，隨著企業競相採用 AI 工具，加拿大 AI 獨角獸企業 Cohere 獲得新一輪投資，估值達到約 70 億美元。加拿大商業發展銀行和 Nexxus Capital Management 在該公司最新 5 億美元募資的第二輪中承諾投資 1 億美元。
‌
‌
‌
‌
‌

2025-07-02

07-02科技
AI聊天機器人「設定」散布假資訊超簡單！專家警告：一定會被利用！
人類要控制 AI 聊天機器人、利用其來散播假消息可能非常容易。澳洲研究人員近日就發現，知名 AI 聊天機器人可以被「設定成」以權威口吻回答健康問題，並散布假資訊，甚至附上虛假的醫學期刊引用，令使用者誤信其可靠。根據《路透》報導，研究團隊警告，若 AI 系統缺乏完善的內部防護措施，這些被廣泛使用的 AI 工具極易被濫用，用來大量生成危險的錯誤健康資訊。
‌
‌
‌
‌
‌

2025-06-14

06-14A股
騰訊混元3D 2.1開源！全球首個工業級3D生成模型登場、支援PBR高擬真渲染
在電腦視覺領域頂尖會議 CVPR 2025 上，騰訊 (00700-HK) 正式宣布其「混元 3D 2.1 大模型」全面開源。這是全球首個全鏈路開源的工業級 3D 生成模型，擁有高幾何精度與物理擬真渲染能力，為 AI 驅動的 3D 建模技術開啟全新時代。
‌
‌
‌
‌
‌

2025-06-13

06-13美股雷達
派對或將結束？高盛：當心資料中心熱潮演變為長期供過於求
高盛分析師 Vinay Viswanathan 在本周給客戶的報告中指出，受大規模投資於大型語言模型的 GPU 設施的推動，資料中心市場預計將在今年創下紀錄。然而，他也警告，儘管「資料中心行業近期出現了復甦跡象」，但他們仍對長期供需平衡持謹慎態度。
‌
‌
‌
‌
‌

2025-06-08

06-08美股雷達
蘋果研究揭露AI根本不會推理！Google執行長提AJI新概念
蘋果近期發表一項具指標性的 AI 研究報告，震撼揭露目前市場上號稱具備「推理能力」的 AI 模型，如 Claude Thinking、DeepSeek-R1、o3-mini，實際上只是進行「進階記憶遊戲」，根本談不上真正的邏輯推理。為了避開常見的訓練資料污染問題，蘋果研究團隊自訂了一組從未出現在資料集中的邏輯謎題，用來測試 AI 模型是否具備真正的理解與推理能力。
‌
‌
‌
‌
‌

2025-05-31

05-31美股雷達
矽谷明星投資人：通用AI大宗商品化美企恐被DeepSeek蠶食
人稱「網路女王」、曾早期投資 Meta、Spotify 與 Airbnb 等知名企業的矽谷明星投資人瑪麗 · 米克 (Mary Meeker) 警告，OpenAI 等美國人工智慧 (AI) 公司正面臨中國 DeepSeek 等更便宜競爭對手的威脅，由於大型語言模型訓練成本飆升，但定價能力承壓，商業模式前景不明。
‌
‌
‌
‌
‌

2025-05-26

05-26美股雷達
Google推Gemini Diffusion：首款語言擴散模型刷新生成速度、挑戰GPT霸主地位
在 Google I/O 2025 大會中，除了 Gemini 2.5 系列與 Veo 3 模型掀起話題之外，Google (GOOGL-US) 也悄然發布旗下首款擴散模型（Diffusion Model）Gemini Diffusion。雖非主舞台焦點，但這款新模型憑藉超高速語言生成能力與技術潛力，迅速引起 AI 社群高度關注。
‌
‌
‌
‌
‌

2025-05-13

05-13
中國本土AI大模型「五強格局」成形：阿里、字節、DeepSeek競逐多模態與智慧代理技術
自 DeepSeek 橫空出世以來，中國 AI 產業版圖產生顯著變化。這不僅打破了過去中美大型語言模型主導的格局，也讓本土大型語言模型市場進入重新洗牌的階段。如今，包括字節跳動、阿里巴巴 (09988-HK) 、階躍星辰、智譜 AI 與 DeepSeek 等五家企業逐漸穩定成形，被外界視為中國 AI 領域的「五強格局」，產業正加速走向技術深化與應用落地的整合期。
‌
‌
‌
‌
‌

2025-05-01

05-01A股
前DeepSeek核心開發者羅福莉助力！小米突襲開源MiMo-7B大型語言模型
中國科技巨頭小米 (01810-HK) 日前在官方公眾號「Xiaomi MiMo」無預警宣布，正式開源旗下首款推理大型語言模型 MiMo-7B，消息一出震撼整個人工智慧（AI）社群。這款模型從開發到釋出過程全程保密，未曾流出任何消息。根據官方釋出的技術報告，MiMo-7B 僅使用 70 億參數，卻在兩大關鍵任務：數學推理與程式碼生成中，分別超越 OpenAI 的 o1-mini 以及阿里巴巴 (09988-HK) 320 億參數的 Qwen QwQ-32B-Preview。
‌
‌
‌
‌
‌

2025-03-11

03-11美股雷達
路透：Meta與台積電合作測試自研AI晶片降低對輝達依賴
路透周二 (11 日) 援引兩名知情人士消息報導，臉書母公司 Meta Platforms(META-US) 正在測試與台積電 (2330-TW)(TSM-US) 合作生產的自研人工智慧 (AI) 訓練晶片，目的是要降低對輝達 (NVDA-US) 的依賴、減少基礎設施成本。
‌
‌
‌
‌
‌

2025-02-15

02-15科技
AI效率大幅提升！DeepSeek如何重新定義資料中心市場
美媒《CNBC》周五 (14 日) 報導，隨著中國新創公司深度求索 (DeepSeek) 推出更便宜且高效的人工智慧 (AI) 模型，可能會重塑資料中心的需求，進一步促進這一已經蓬勃發展的行業。資料中心是數位轉型和大型語言模型 (LLMs) 訓練的核心基礎設施，分析師長期預測其將持續成長。
‌
‌
‌
‌
‌

2025-02-06

02-06美股雷達
Google推出新型低價AI模型預估五年內實現量子運算商業應用
Alphabet 旗下的 Google 周三 (5 日) 宣布更新其 Gemini 系列的大型語言模型 (LLM)，並推出一款全新的低成本人工智慧 (AI) 模型，以對抗來自中國競爭對手 DeepSeek 的低價產品。Google 現在提供多個版本的 Gemini 模型，根據價格和效能有所區別。
‌
‌
‌
‌
‌

2025-01-24

01-24A股港股
DeepSeek異軍突起浙大天才表現引矽谷驚奇
人工智慧 (AI) 領域的發展日新月異，其中，大型語言模型 (LLM) 更是備受矚目。在這一領域中，一家名為 DeepSeek 的中國新創公司異軍突起，不僅在技術上取得了重大突破，更以其獨特的發展模式，引起美國矽谷的關注和震驚。據報導，訓練成本極低的「DeepSeek-V3」只用了 2048 張 H100 的 GPU 集群，且用時僅 53 天。
‌
‌
‌
‌
‌

‌