金色財經
撰文:jsai@金色財經
2026年4月17日斯坦福大學HAI(Human-Centered AI)研究院發布2026年AI指數報告。這是迄今為止最全面的AI年度報告,共423頁,涵蓋研究與開發、技術性能、負責任AI、經濟、科學、醫學、教育、政策治理與公眾輿論九大領域。
報告的核心主旋律可以用一句話概括:AI的能力在以令人眩暈的速度前進,而圍繞它構建的評估體系、治理框架、教育制度和監管機制,都在艱難地追趕。
1、AI 能力並未進入平台期,反而正在加速普及
工業界在2025年產出了超過90%的頂尖前沿模型。目前,多個模型在博士級科學問題、多模態推理和競賽數學方面已達到或超過人類基準。在關鍵編程基準測試 SWE-bench Verified 上,性能在一年內從60%飆升至接近100%。機構採用率達到88%,五分之四的大學生正在使用生成式 AI。
2、中美 AI 模型性能差距已基本消除
自2025年初以來,中美模型多次更替領先地位。2025年2月,DeepSeek-R1 曾短暫追平美國頂尖模型;截至2026年3月,Anthropic 的最強模型僅領先2.7%。美國在頂級模型數量和高影響力專利方面仍具優勢,而中國在論文發表量、引用量、專利產出及工業機器人安裝量上處於領先。韓國憑藉人均 AI 專利數全球第一,展現出極高的創新密度。
3、美國擁有最多的 AI 數據中心,但其多數晶片由一家台灣代工廠製造
美國擁有5,427個數據中心,是其他國家的10倍以上,能源消耗也居全球之首。台積電幾乎製造了所有領先的 AI 晶片,這使得全球 AI 硬體供應鏈高度依賴台灣的這一家代工廠——儘管台積電在美國的擴建項目已於2025年投入營運。
4、AI 模型能贏得國際數學奧林匹克金牌,卻無法可靠地辨認時間——研究者稱之為 AI 的「崎嶇前沿(Jagged Frontier)」
Gemini Deep Think 獲得了國際數學奧林匹克競賽金牌,但頂尖模型識別模擬時鐘(指針表)的準確率僅為50.1%。在測試跨操作系統真實電腦任務的 OSWorld 上,AI 智能體(Agents)的任務成功率從12%躍升至約66%,但在結構化基準測試中仍有約三分之一的嘗試以失敗告終。
5、負責任 AI 的發展未能跟上 AI 能力的步伐,安全基準滯後且相關事故激增
幾乎所有領先的前沿 AI 開發商都會報告能力基準結果,但對「負責任 AI」基準的報告仍不完整。記錄在案的 AI 事故從2024年的233起上升至362起。更具挑戰的是,近期研究發現,提升負責任 AI 的某個維度(如安全性)可能會削弱另一個維度(如準確性)。
6、美國在 AI 投資領域領先,但吸引全球人才的能力正在下降
2025年美國私人 AI 投資達到2859億美元,是中國的124億美元的23倍多——但考慮到政府引導基金,僅看私人投資數據可能低估了中國的總投入。美國在創業活躍度上也處於領先,2025年新成立的獲投 AI 公司達1,953家,是緊隨其後國家的10倍多。然而,遷往美國的 AI 研究人員和開發人員數量自2017年以來下降了89%,僅去年一年就下降了80%。
7、AI 的普及速度創下歷史紀錄,消費者正從通常免費的工具中獲得巨大價值
生成式 AI 在三年內達到了53%的人口普及率,速度快於個人電腦(PC)或網路。普及速度因國而異,且與人均 GDP 強相關。部分國家表現出超預期的高普及率,如新加坡(61%)和阿聯酋(54%),而美國以28.3%排名第24位。到2026年初,生成式 AI 工具為美國消費者創造的年價值估計達1720億美元,用戶中位價值在2025至2026年間翻了兩番。
8、正規教育落後於 AI 發展,但人們正在人生的各個階段學習 AI 技能
超過80%的美國高中生和大學生在學習任務中使用 AI,但只有一半的中學和高中制定了 AI 政策,且僅有6%的教師認為這些政策清晰明確。在課堂之外,AI 工程技能在阿聯酋、智利和南非加速最快。2022至2024年間,美加地區的 AI 博士生人數增長了22%,但這些新增的博士主要選擇了學術界而非工業界職位。
9、AI 主權正成為國家政策的定義性特徵,雖然能力分布仍不均衡,但開源開發正助力參與者多元化
各國 AI 戰略正在擴張,特別是在發展中經濟體,國家背景的 AI 超算投資同步增長,標誌着各國對掌控本土 AI 生態系統的野心日益增強。目前模型生產仍集中在中美兩國。開源開發正在重塑參與格局,GitHub 上來自世界其他地區的貢獻現已超過歐洲,並逼近美國,推動了語言多樣化模型和基準的發展。
10、AI 專家與公眾對技術的未來看法大相徑庭,全球對管理 AI 的機構信任度呈碎片化
關於 AI 對工作的影響,73%的專家預期會有積極作用,而公眾中僅有23%持此觀點,差距達50個百分點。在 AI 對經濟和醫療的影響方面也存在類似分歧。全球對政府監管 AI 的信任度不一。在受訪國家中,美國對其政府監管 AI 的信任度最低,僅為31%。在全球範圍內,歐盟在有效監管 AI 方面比美國或中國更受信任。
性能突破正在讓基準測試過時
2025年,AI能力的提升速度不僅沒有放緩,反而在加快。前沿模型在單一年份內於Humanity"s Last Exam(專為難倒AI而設計的基準測試)上提升了30個百分點;而SWE-bench Verified(軟體工程代碼能力測試)從60%飆升至接近100%的人類基線,僅用了一年。
更深刻的問題是:AI的進步速度已經超過了為測量它而設計的基準測試。那些本該在數年內保持挑戰性的評估,數月內就被飽和。評估工具失效意味著我們正在失去追蹤AI真實進展的儀器。
頂級模型性能高度收斂
按Arena Elo競技評分,截至2026年3月,Anthropic(1503分)、xAI(1495分)、Google(1494分)、OpenAI(1481分)、阿里巴巴(1449分)和DeepSeek(1424分)聚集於頂端,頂級4家公司僅相差25分。能力本身已不再是差異化競爭維度,競爭壓力正在轉向成本、可靠性和特定領域性能。
美中AI差距實質性消失
2025年初以來,美中頂級模型在性能排名上多次易位。2025年2月,DeepSeek-R1短暫追平了美國最強模型;截至2026年3月,美國頂級模型的領先優勢僅剩2.7%,且在過去一年內持續在個位數區間波動。與此同時,中國在論文發表量、引用量、專利授權數和工業機器人安裝量上均領先全球;美國則在頂級模型開發數量(2025年美國50個,中國30個)和高影響力專利上仍占優勢。韓國憑藉人均AI專利密度位居全球第一,展現出獨特的創新活力。
"鋸齒形智能":能拿數學奧賽金牌,卻看不准時鐘
報告提出了"鋸齒形前沿"(jagged frontier)這一核心概念。Gemini Deep Think在2025年國際數學奧林匹克競賽中獲得金牌(35分),在4.5小時內全程用自然語言完成解題;然而同款頂級模型在ClockBench上讀取模擬時鐘的正確率僅為50.1%,而人類達到90.1%。
這種不均衡性在專業領域同樣存在:AI模型在稅務、抵押貸款處理、企業金融和法律推理的評估中表現在60%至90%之間——前15名模型之間差距不過3個百分點——說明高可靠性專業場景仍是重大挑戰。
AI Agent:從12%到66%的大跳躍,但仍有三分之一的失敗率
在OSWorld(測試跨操作系統的真實計算機任務)上,AI Agent的準確率從約12%大幅躍升至66.3%,接近人類表現,進步顯著。但在結構化基準測試上,Agent仍約三分之一時間告敗。機器人領域的"鋸齒"更加明顯:RLBench軟體仿真環境中操控成功率達89.4%,而在真實家庭任務中僅能完成12%。自動駕駛是罕見的例外,已實現規模化部署並呈現出令人鼓舞的安全記錄。
產業界主導前沿,透明度卻在倒退
2025年超過90%的值得關注的前沿模型由產業界生產,但能力最強的模型恰恰是最不透明的。OpenAI、Anthropic、Google等多家頂級實驗室已停止披露訓練代碼、參數量、數據集規模和訓練時長。Foundation Model透明度指數的平均分從2024年的58分驟降至2025年的40分。"越強越秘密"的趨勢,讓獨立評估和安全研究面臨前所未有的障礙。
算力:3.3倍的年增速與單點脆弱性
全球AI算力自2022年以來每年增長3.3倍,2025年達1710萬H100等效算力。英偉達占據60%以上市佔率,谷歌和亞馬遜提供大部分其餘部分,華為則占據小但不斷增長的市佔率。
然而這一龐大體系存在一個致命的單點依賴:幾乎所有頂級AI晶片都由台積電(TSMC)一家代工廠製造,使全球AI硬體供應鏈極度依賴台灣。2025年台積電美國工廠開始營運,但這一結構性風險短期內無法消除。美國擁有5427個數據中心,超過排名第二國家的10倍,但其能耗也同樣居全球首位。
環境代價:數字已觸目驚心
AI的環境足跡隨其能力同步擴張。Grok 4的訓練預估排放量達72816噸CO₂當量;AI數據中心總功率容量升至29.6吉瓦,相當於紐約州峰值用電需求;僅GPT-4o推理一項,年耗水量可能超過1200萬人的飲水需求。
全球AI投資超歷史記錄
2025年,全球企業AI投資超過翻倍,私人投資增速高達127.5%,占總量60%。生成式AI增長超過200%,吸引了近一半私人AI融資。美國私人AI投資達2859億美元,是中國的23倍;新獲融資AI公司達1953家,是排名第二的國家的10倍以上。
消費者價值與採用速度雙創紀錄
生成式AI在三年內實現53%的全球人口採用率,速度超過個人電腦和網路。美國消費者從生成式AI工具獲得的年度估算經濟價值在2026年初達到1720億美元(2025年為1120億美元),中位數用戶價值一年內翻了三倍,而絕大多數工具仍然免費或接近免費。
企業層面,88%的受調查組織已採用AI,中國和歐洲增速最快;70%的組織在至少一項業務功能中使用生成式AI。但AI Agent在幾乎所有業務功能中的部署仍處於個位數階段。
值得注意的是,儘管美國主導了AI投資和模型開發,其生成式AI採用率卻僅28.3%,在全球排名第24位;而新加坡(61%)和阿聯酋(54%)的採用率遠超其GDP水平所預測的值。
勞動力:生產率紅利與就業隱憂同步顯現
研究顯示AI帶來的生產率提升集中於可量化的結構性工作:客戶支持提升14-15%、軟體開發提升26%、營銷產出提升50%;在需要更深層判斷的任務中,效果減弱甚至為負。
與此同時,就業影響的早期信號已經出現,且高度集中於最年輕的工作者。美國22至25歲軟體開發人員就業人數從2024年下降了近20%,而年齡較大的開發人員數量仍在增長。三分之一受調查組織預計在未來一年縮減人員,但這一預期變化在整體就業數據中尚未大規模體現。報告還發現一個令人警惕的長期效應:過度依賴AI可能帶來學習懲罰,減緩人類技能的長期積累。
2025年,記錄在案的AI事故數量上升至362起,相較2024年的233起增加了55%。與此同時,能力基準測試受到普遍測試,但負責任AI基準測試的報告參與率依然稀疏。
更深層的挑戰是:提升某一負責任AI維度往往會降低另一維度。訓練旨在提高安全性的技術會一致性地損害準確性,反之亦然。這一實證發現意味著"安全且準確的AI"並非簡單的工程問題。
在幻覺與可靠性上,26個頂級模型的幻覺率從22%到94%不等,跨度觸目驚心。當虛假陳述被包裝為"另一個人的信念"時,模型表現良好;但當同樣的虛假陳述被呈現為"用戶自己的信念"時,性能驟然崩潰——模型尚不能可靠區分知識與信念。
在對抗性攻擊下,多個前沿模型在AILuminate基準測試的標準場景中獲得"非常好"或"良好"的安全評級;但面對精心設計的越獄提示,所有被測模型的安全性能均出現下降。
科學領域:局部突破,全局復現率偏低
AI在科學領域的出版物年增26%,占2025年全部科學研究產出的5.8%至8.8%。頂級模型在ChemBench上對化學問題的平均表現超越了人類化學家,但同時在基礎任務上頻頻失誤;在ReplicationBench天體物理復現測試中得分低於20%;Earth觀測問答準確率僅33%,代碼失敗率高達58%。
一個引人注目的反直覺發現是:小模型正在擊敗大模型。1.11億參數的MSAPairformer在ProteinGym蛋白質預測基準上擊敗了此前所有方法;2億參數的GPN-Star基因組模型擊敗了參數量近200倍的競爭者。科學領域AI模型的開發主要來自學術機構和跨機構合作,與通用AI的產業主導格局截然不同。
醫學領域:自動病歷成功落地,臨床證據基礎薄弱
2025年,自動生成臨床病歷工具獲得大規模應用,多個醫院系統的醫生反映寫病歷時間減少達83%,職業倦怠顯著降低。然而,對500餘項臨床AI研究的綜述發現:近一半研究依賴考試題型而非真實患者數據,僅5%使用了真實臨床數據。臨床AI工具在落地層面領先,但支撐其可信度的證據體系遠未成熟。
美國高中和大學生中超過80%使用AI完成學業相關任務,但只有一半中學具備AI政策,僅6%的教師認為這些政策表述清晰。中國和阿聯酋已於2025-2026學年開始強制推行AI教育,代表着全國性AI素養培育的結構性轉變。
在人才培養層面,2022年至2024年間,美國和加拿大新增AI博士數量增加了22%,但增量部分全部流向學術崗位,而非產業界——逆轉了過去十年AI博士持續向產業傾斜的趨勢。與此同時,AI研究人員和開發者遷入美國的數量自2017年以來下降了89%,僅過去一年就下降了80%,美國對頂級AI人才的吸引力正在顯著衰減。
立法加速,但監管仍追不上AI落地速度
各國AI治理策略持續擴充,尤其是發展中經濟體正在加速布局。各國對AI超級計算的國家投資也在同步上升——國家主權AI的雄心正從言辭轉向基礎設施。但模型生產仍高度集中於美中兩國;開源開發正在重新分配參與權,來自世界其他地區的GitHub貢獻量已超過歐洲,並接近美國,推動了更多語言多樣性的模型和基準測試。
專家與公眾的認知鴻溝:50個百分點
關於AI對工作的影響,73%的專家預期正面效果,而公眾中只有23%持相同看法——差距高達50個百分點。類似的鴻溝在經濟影響和醫療效果的問題上同樣存在。
在對政府監管AI的信任度方面,美國在受調查國家中排名墊底,僅31%的受訪者信任本國政府能夠有效監管AI。全球範圍內,歐盟的監管可信度評分高於美國和中國。
2026年斯坦福AI指數報告揭示的核心張力,是能力曲線與治理曲線之間持續擴大的剪刀差。
AI在編碼、數學、科學推理、醫療輔助、氣候預測等領域創造了真實可量化的價值,正以前所未有的速度滲透進企業、學校、醫院和政策制定機構。
然而,讓我們真正能夠理解、衡量、引導這種滲透的基礎設施——評估基準、監管框架、教育政策、透明度機制——正在力不從心。
報告沒有對AI的未來給出樂觀或悲觀的裁決,它提供的是一套精準的測量儀器,告訴我們這場技術變革在哪些維度上超出了人類的預期,又在哪些維度上暴露了我們準備不足的真實代價。
來源:金色財經
發佈者對本文章的內容承擔全部責任
在投資加密貨幣前,請務必深入研究,理解相關風險,並謹慎評估自己的風險承受能力。不要因為短期高回報的誘惑而忽視潛在的重大損失。
暢行幣圈交易全攻略,專家駐群實戰交流
▌立即加入鉅亨買幣實戰交流 LINE 社群(點此入群)
不管是新手發問,還是老手交流,只要你想參與加密貨幣現貨交易、合約跟單、合約網格、量化交易、理財產品的投資,都歡迎入群討論學習!
上一篇
下一篇