區塊鏈

速覽2026年斯坦福AI指數報告

金色財經2026-04-17 19:30

撰文：jsai@金色財經

2026年4月17日斯坦福大學HAI（Human-Centered AI）研究院發布2026年AI指數報告。這是迄今為止最全面的AI年度報告，共423頁，涵蓋研究與開發、技術性能、負責任AI、經濟、科學、醫學、教育、政策治理與公眾輿論九大領域。

報告的核心主旋律可以用一句話概括：AI的能力在以令人眩暈的速度前進，而圍繞它構建的評估體系、治理框架、教育制度和監管機制，都在艱難地追趕。

一、報告十大要點總結

‌

1、AI 能力並未進入平台期，反而正在加速普及

工業界在2025年產出了超過90%的頂尖前沿模型。目前，多個模型在博士級科學問題、多模態推理和競賽數學方面已達到或超過人類基準。在關鍵編程基準測試 SWE-bench Verified 上，性能在一年內從60%飆升至接近100%。機構採用率達到88%，五分之四的大學生正在使用生成式 AI。

2、中美 AI 模型性能差距已基本消除

自2025年初以來，中美模型多次更替領先地位。2025年2月，DeepSeek-R1 曾短暫追平美國頂尖模型；截至2026年3月，Anthropic 的最強模型僅領先2.7%。美國在頂級模型數量和高影響力專利方面仍具優勢，而中國在論文發表量、引用量、專利產出及工業機器人安裝量上處於領先。韓國憑藉人均 AI 專利數全球第一，展現出極高的創新密度。

3、美國擁有最多的 AI 數據中心，但其多數晶片由一家台灣代工廠製造

美國擁有5,427個數據中心，是其他國家的10倍以上，能源消耗也居全球之首。台積電幾乎製造了所有領先的 AI 晶片，這使得全球 AI 硬體供應鏈高度依賴台灣的這一家代工廠——儘管台積電在美國的擴建項目已於2025年投入營運。

4、AI 模型能贏得國際數學奧林匹克金牌，卻無法可靠地辨認時間——研究者稱之為 AI 的「崎嶇前沿（Jagged Frontier）」

Gemini Deep Think 獲得了國際數學奧林匹克競賽金牌，但頂尖模型識別模擬時鐘（指針表）的準確率僅為50.1%。在測試跨操作系統真實電腦任務的 OSWorld 上，AI 智能體（Agents）的任務成功率從12%躍升至約66%，但在結構化基準測試中仍有約三分之一的嘗試以失敗告終。

5、負責任 AI 的發展未能跟上 AI 能力的步伐，安全基準滯後且相關事故激增

幾乎所有領先的前沿 AI 開發商都會報告能力基準結果，但對「負責任 AI」基準的報告仍不完整。記錄在案的 AI 事故從2024年的233起上升至362起。更具挑戰的是，近期研究發現，提升負責任 AI 的某個維度（如安全性）可能會削弱另一個維度（如準確性）。

6、美國在 AI 投資領域領先，但吸引全球人才的能力正在下降

2025年美國私人 AI 投資達到2859億美元，是中國的124億美元的23倍多——但考慮到政府引導基金，僅看私人投資數據可能低估了中國的總投入。美國在創業活躍度上也處於領先，2025年新成立的獲投 AI 公司達1,953家，是緊隨其後國家的10倍多。然而，遷往美國的 AI 研究人員和開發人員數量自2017年以來下降了89%，僅去年一年就下降了80%。

7、AI 的普及速度創下歷史紀錄，消費者正從通常免費的工具中獲得巨大價值

生成式 AI 在三年內達到了53%的人口普及率，速度快於個人電腦（PC）或網路。普及速度因國而異，且與人均 GDP 強相關。部分國家表現出超預期的高普及率，如新加坡（61%）和阿聯酋（54%），而美國以28.3%排名第24位。到2026年初，生成式 AI 工具為美國消費者創造的年價值估計達1720億美元，用戶中位價值在2025至2026年間翻了兩番。

8、正規教育落後於 AI 發展，但人們正在人生的各個階段學習 AI 技能

超過80%的美國高中生和大學生在學習任務中使用 AI，但只有一半的中學和高中制定了 AI 政策，且僅有6%的教師認為這些政策清晰明確。在課堂之外，AI 工程技能在阿聯酋、智利和南非加速最快。2022至2024年間，美加地區的 AI 博士生人數增長了22%，但這些新增的博士主要選擇了學術界而非工業界職位。

9、AI 主權正成為國家政策的定義性特徵，雖然能力分布仍不均衡，但開源開發正助力參與者多元化

各國 AI 戰略正在擴張，特別是在發展中經濟體，國家背景的 AI 超算投資同步增長，標誌着各國對掌控本土 AI 生態系統的野心日益增強。目前模型生產仍集中在中美兩國。開源開發正在重塑參與格局，GitHub 上來自世界其他地區的貢獻現已超過歐洲，並逼近美國，推動了語言多樣化模型和基準的發展。

10、AI 專家與公眾對技術的未來看法大相徑庭，全球對管理 AI 的機構信任度呈碎片化

關於 AI 對工作的影響，73%的專家預期會有積極作用，而公眾中僅有23%持此觀點，差距達50個百分點。在 AI 對經濟和醫療的影響方面也存在類似分歧。全球對政府監管 AI 的信任度不一。在受訪國家中，美國對其政府監管 AI 的信任度最低，僅為31%。在全球範圍內，歐盟在有效監管 AI 方面比美國或中國更受信任。

二、報告解讀

1、能力前沿：加速、收斂與"鋸齒形"邊界

性能突破正在讓基準測試過時

2025年，AI能力的提升速度不僅沒有放緩，反而在加快。前沿模型在單一年份內於Humanity"s Last Exam（專為難倒AI而設計的基準測試）上提升了30個百分點；而SWE-bench Verified（軟體工程代碼能力測試）從60%飆升至接近100%的人類基線，僅用了一年。

更深刻的問題是：AI的進步速度已經超過了為測量它而設計的基準測試。那些本該在數年內保持挑戰性的評估，數月內就被飽和。評估工具失效意味著我們正在失去追蹤AI真實進展的儀器。

頂級模型性能高度收斂

按Arena Elo競技評分，截至2026年3月，Anthropic（1503分）、xAI（1495分）、Google（1494分）、OpenAI（1481分）、阿里巴巴（1449分）和DeepSeek（1424分）聚集於頂端，頂級4家公司僅相差25分。能力本身已不再是差異化競爭維度，競爭壓力正在轉向成本、可靠性和特定領域性能。

美中AI差距實質性消失

2025年初以來，美中頂級模型在性能排名上多次易位。2025年2月，DeepSeek-R1短暫追平了美國最強模型；截至2026年3月，美國頂級模型的領先優勢僅剩2.7%，且在過去一年內持續在個位數區間波動。與此同時，中國在論文發表量、引用量、專利授權數和工業機器人安裝量上均領先全球；美國則在頂級模型開發數量（2025年美國50個，中國30個）和高影響力專利上仍占優勢。韓國憑藉人均AI專利密度位居全球第一，展現出獨特的創新活力。

"鋸齒形智能"：能拿數學奧賽金牌，卻看不准時鐘

報告提出了"鋸齒形前沿"（jagged frontier）這一核心概念。Gemini Deep Think在2025年國際數學奧林匹克競賽中獲得金牌（35分），在4.5小時內全程用自然語言完成解題；然而同款頂級模型在ClockBench上讀取模擬時鐘的正確率僅為50.1%，而人類達到90.1%。

這種不均衡性在專業領域同樣存在：AI模型在稅務、抵押貸款處理、企業金融和法律推理的評估中表現在60%至90%之間——前15名模型之間差距不過3個百分點——說明高可靠性專業場景仍是重大挑戰。

AI Agent：從12%到66%的大跳躍，但仍有三分之一的失敗率

在OSWorld（測試跨操作系統的真實計算機任務）上，AI Agent的準確率從約12%大幅躍升至66.3%，接近人類表現，進步顯著。但在結構化基準測試上，Agent仍約三分之一時間告敗。機器人領域的"鋸齒"更加明顯：RLBench軟體仿真環境中操控成功率達89.4%，而在真實家庭任務中僅能完成12%。自動駕駛是罕見的例外，已實現規模化部署並呈現出令人鼓舞的安全記錄。

2、研發格局：工業主導、透明度下滑、集中度上升

產業界主導前沿，透明度卻在倒退

2025年超過90%的值得關注的前沿模型由產業界生產，但能力最強的模型恰恰是最不透明的。OpenAI、Anthropic、Google等多家頂級實驗室已停止披露訓練代碼、參數量、數據集規模和訓練時長。Foundation Model透明度指數的平均分從2024年的58分驟降至2025年的40分。"越強越秘密"的趨勢，讓獨立評估和安全研究面臨前所未有的障礙。

算力：3.3倍的年增速與單點脆弱性

全球AI算力自2022年以來每年增長3.3倍，2025年達1710萬H100等效算力。英偉達占據60%以上市佔率，谷歌和亞馬遜提供大部分其餘部分，華為則占據小但不斷增長的市佔率。

然而這一龐大體系存在一個致命的單點依賴：幾乎所有頂級AI晶片都由台積電（TSMC）一家代工廠製造，使全球AI硬體供應鏈極度依賴台灣。2025年台積電美國工廠開始營運，但這一結構性風險短期內無法消除。美國擁有5427個數據中心，超過排名第二國家的10倍，但其能耗也同樣居全球首位。

環境代價：數字已觸目驚心

AI的環境足跡隨其能力同步擴張。Grok 4的訓練預估排放量達72816噸CO₂當量；AI數據中心總功率容量升至29.6吉瓦，相當於紐約州峰值用電需求；僅GPT-4o推理一項，年耗水量可能超過1200萬人的飲水需求。

3、經濟影響：投資暴增、生產率可見，就業影響初現

全球AI投資超歷史記錄

2025年，全球企業AI投資超過翻倍，私人投資增速高達127.5%，占總量60%。生成式AI增長超過200%，吸引了近一半私人AI融資。美國私人AI投資達2859億美元，是中國的23倍；新獲融資AI公司達1953家，是排名第二的國家的10倍以上。

消費者價值與採用速度雙創紀錄

生成式AI在三年內實現53%的全球人口採用率，速度超過個人電腦和網路。美國消費者從生成式AI工具獲得的年度估算經濟價值在2026年初達到1720億美元（2025年為1120億美元），中位數用戶價值一年內翻了三倍，而絕大多數工具仍然免費或接近免費。

企業層面，88%的受調查組織已採用AI，中國和歐洲增速最快；70%的組織在至少一項業務功能中使用生成式AI。但AI Agent在幾乎所有業務功能中的部署仍處於個位數階段。

值得注意的是，儘管美國主導了AI投資和模型開發，其生成式AI採用率卻僅28.3%，在全球排名第24位；而新加坡（61%）和阿聯酋（54%）的採用率遠超其GDP水平所預測的值。

勞動力：生產率紅利與就業隱憂同步顯現

研究顯示AI帶來的生產率提升集中於可量化的結構性工作：客戶支持提升14-15%、軟體開發提升26%、營銷產出提升50%；在需要更深層判斷的任務中，效果減弱甚至為負。

與此同時，就業影響的早期信號已經出現，且高度集中於最年輕的工作者。美國22至25歲軟體開發人員就業人數從2024年下降了近20%，而年齡較大的開發人員數量仍在增長。三分之一受調查組織預計在未來一年縮減人員，但這一預期變化在整體就業數據中尚未大規模體現。報告還發現一個令人警惕的長期效應：過度依賴AI可能帶來學習懲罰，減緩人類技能的長期積累。

4、負責任AI：事故激增，安全與能力的矛盾無解

2025年，記錄在案的AI事故數量上升至362起，相較2024年的233起增加了55%。與此同時，能力基準測試受到普遍測試，但負責任AI基準測試的報告參與率依然稀疏。

更深層的挑戰是：提升某一負責任AI維度往往會降低另一維度。訓練旨在提高安全性的技術會一致性地損害準確性，反之亦然。這一實證發現意味著"安全且準確的AI"並非簡單的工程問題。

在幻覺與可靠性上，26個頂級模型的幻覺率從22%到94%不等，跨度觸目驚心。當虛假陳述被包裝為"另一個人的信念"時，模型表現良好；但當同樣的虛假陳述被呈現為"用戶自己的信念"時，性能驟然崩潰——模型尚不能可靠區分知識與信念。

在對抗性攻擊下，多個前沿模型在AILuminate基準測試的標準場景中獲得"非常好"或"良好"的安全評級；但面對精心設計的越獄提示，所有被測模型的安全性能均出現下降。

5、科學與醫學：潛力巨大，證據體系仍然薄弱

科學領域：局部突破，全局復現率偏低

AI在科學領域的出版物年增26%，占2025年全部科學研究產出的5.8%至8.8%。頂級模型在ChemBench上對化學問題的平均表現超越了人類化學家，但同時在基礎任務上頻頻失誤；在ReplicationBench天體物理復現測試中得分低於20%；Earth觀測問答準確率僅33%，代碼失敗率高達58%。

一個引人注目的反直覺發現是：小模型正在擊敗大模型。1.11億參數的MSAPairformer在ProteinGym蛋白質預測基準上擊敗了此前所有方法；2億參數的GPN-Star基因組模型擊敗了參數量近200倍的競爭者。科學領域AI模型的開發主要來自學術機構和跨機構合作，與通用AI的產業主導格局截然不同。

醫學領域：自動病歷成功落地，臨床證據基礎薄弱

2025年，自動生成臨床病歷工具獲得大規模應用，多個醫院系統的醫生反映寫病歷時間減少達83%，職業倦怠顯著降低。然而，對500餘項臨床AI研究的綜述發現：近一半研究依賴考試題型而非真實患者數據，僅5%使用了真實臨床數據。臨床AI工具在落地層面領先，但支撐其可信度的證據體系遠未成熟。

6、教育與人才：使用先於政策，博士增長流向學界

美國高中和大學生中超過80%使用AI完成學業相關任務，但只有一半中學具備AI政策，僅6%的教師認為這些政策表述清晰。中國和阿聯酋已於2025-2026學年開始強制推行AI教育，代表着全國性AI素養培育的結構性轉變。

在人才培養層面，2022年至2024年間，美國和加拿大新增AI博士數量增加了22%，但增量部分全部流向學術崗位，而非產業界——逆轉了過去十年AI博士持續向產業傾斜的趨勢。與此同時，AI研究人員和開發者遷入美國的數量自2017年以來下降了89%，僅過去一年就下降了80%，美國對頂級AI人才的吸引力正在顯著衰減。

7、政策、治理與公眾認知：信任撕裂，主權競賽開始

立法加速，但監管仍追不上AI落地速度

各國AI治理策略持續擴充，尤其是發展中經濟體正在加速布局。各國對AI超級計算的國家投資也在同步上升——國家主權AI的雄心正從言辭轉向基礎設施。但模型生產仍高度集中於美中兩國；開源開發正在重新分配參與權，來自世界其他地區的GitHub貢獻量已超過歐洲，並接近美國，推動了更多語言多樣性的模型和基準測試。

專家與公眾的認知鴻溝：50個百分點

關於AI對工作的影響，73%的專家預期正面效果，而公眾中只有23%持相同看法——差距高達50個百分點。類似的鴻溝在經濟影響和醫療效果的問題上同樣存在。

在對政府監管AI的信任度方面，美國在受調查國家中排名墊底，僅31%的受訪者信任本國政府能夠有效監管AI。全球範圍內，歐盟的監管可信度評分高於美國和中國。