AI推理
美股雷達
隨著人工智慧發展重心從模型「訓練」轉向「推理」,科技巨頭 OpenAI 與晶片霸主輝達 (NVDA-US) (NVIDIA)之間的關係正悄然發生變化。儘管輝達的 GPU 在大規模數據訓練領域擁有絕對主導地位,但在處理 AI 模型回應請求的「推理」階段,其硬體架構依賴外部記憶體的特性導致效能面臨瓶頸,這在 OpenAI 旗下對響應速度有極高要求的編碼產品 Codex 中尤為明顯。
歐亞股
中國杭州 GPU 新創公司曦望周二 (27 日) 發表新一代推理 GPU 晶片「啟望 S3」,同步推出面向大模型推理的「寰望 SC3-256」超節點方案,並啟動「百萬 Token 一分錢」推理成本計畫。這是曦望近一年完成約 30 億元戰略融資後的首次集中亮相。
國際政經
全球資本市場緊盯 GPU 與高頻寬記憶體 (HBM) 之際,一個悄然崛起的趨勢正改寫半導體的底層邏輯。AI 推理應用浪潮洶湧而來,不僅重塑算力流向,也將長期被視為「強週期商品」的 NAND 快閃記憶體推向舞台中央,使其成為 AI 時代不可或缺的基礎設施資產。
美股雷達
Signal65 最新報告指出,AI 推理的遊戲規則已徹底改變。決定勝負的關鍵不再是單純的晶片算力或 GPU 數量,而是「每一美元能輸出多少智慧」(Tokenomics)。儘管輝達 (NVDA-US) 的 GB200 NVL72 機架級系統單 GPU 成本約為競爭對手 AMD(AMD-US) MI355X 的兩倍,但在處理前沿混合專家模型(MoE)時,其每 Token 成本卻能實現高達 15 倍的節省優勢,鞏固了輝達在 AI 基礎設施領域的王者地位。
美股雷達
華爾街知名投資機構 Bernstein 周二 (16 日) 發布最新研究報告,深入剖析 AI 技術發展趨勢及其帶來的深遠影響。Bernstein 預估,到 2030 年,無比龐大的 AI 推理系統將催生上兆美元等級的「超級藍海」市場,這為聚焦於 IT 硬體與消費電子的大型科技公司帶來長期利多。
美股雷達
中國科技巨擘華為今 (12) 日在 2025 金融 AI 推理應用落地與發展論壇上正式發表 AI 推理創新技術 UCM(推理記憶資料管理器),並計劃下月正式開源 UCM。什麼是 UCM?解決 AI 回應慢又貴的問題想像一下,當你問 AI 問題時,它需要「思考」很久才回答,而且運算成本很高。
中國科技巨擘華為今 (12) 日在 2025 金融 AI 推理應用落地與發展論壇上正式發表 AI 推理創新技術 UCM(推理記憶資料管理器),並打算在下月正式開源 UCM。據了解,作為一款以 KV Cache 為中心的推理加速套件,UCM 融合了多類型緩存加速演算法工具,分級管理推理過程中產生的 KV Cache 記憶數據,可擴大推理上下文窗口,實現高吞吐、低時延的推理體驗,降低每 Token 推理成本。