區塊鏈

被低估的真相:Agentic AI 是一場以「儲存」為中心的範式革命

金色財經

作者:Crazyox;來源:X,@crazyox

在過去三年的生成式 AI 狂熱中,全球科技界陷入了一種由 GPU 供給率和算力浮點數(FLOPS)構成的「算力敘事壟斷」。

所有人都在盯着 NVIDIA 的發布會,將 H100、B200 以及未來的 Rubin 視為通往 AGI 的唯一聖杯。

然而,一個極其危險的行業認知偏差正在發生:市場誤將「計算的速度」當成了「智能的全部」。


當大語言模型(LLM)從單純的「無狀態問答(Stateless QA)」演進為具備長程規劃、工具調用和自主決策能力的「有狀態智能體(Stateful Agent)」時,硬體底層的權力重心正在發生一場結構性移轉。

Agentic AI 的核心瓶頸與終極壁壘,從來不是算力,而是記憶。

這不僅是一場軟體應用層的範式遷移,更是一場對整個 IT 基礎設施硬體層級的顛覆性清洗。

儲存,正在從計算的「冷家電」,躍升為智能的「中樞神經」。

一、第一性原理:智能的本質是「時間與空間的能量對抗」

從第一性原理(First Principles)出發,人類乃至宇宙中一切形式的「智能」,其終極追求只有兩件事:無限的計算能力(腦子轉得快)與無限的儲存能力(記性足夠好)。

在物理世界中,計算本質上是能量對空間的改變速度(時鐘頻率、吞吐量),而儲存則是能量在時間維度上的留存狀態(熵減的維持)。

在人類社會中,評價一個人的智力水平,我們看重的是「博聞強識」與「反應敏銳」的統一。

沒有博聞強識的底座,反應敏銳只是無源之水。

機器智能正在嚴絲合縫地沿着這條路徑演進。

但在當前的馮·諾依曼架構下,計算與儲存之間存在著一道致命的「儲存牆(Memory Wall)」。

隨著 Agentic AI 的到來,傳統的中央處理器(CPU)角色已經被完全邊緣化。它早就不再承擔核心的計算邏輯,而是退化為一個「協理員」。

新型的智能硬體層級正在按照對「智能的貢獻度」重新洗牌:

在這個新秩序中,儲存(Memory)被推到了絕對的第一優先級。

因為算力決定了智能體思考的單點爆發力,而儲存的容量與帶寬,決定了智能體認知的邊界、深度以及生命周期的長度。

二、冰山之下的HBM:Decode階段的「內存帶寬大屠殺」

市場目前對儲存的理解,大多停留在 HBM(High Bandwidth Memory)的短缺和英偉達顯存的高昂造價上。

但這只是冰山露在海面上的尖角。

從技術底層來看,大模型的推理過程分為兩個截然不同的階段:Prefill(預填充階段) 和 Decode(解碼逐字生成階段)。

  • Prefill 階段是 Compute-bound(計算受限)的,它需要大吞吐量的 GPU 算力來一次性處理輸入的 Prompt。

  • Decode 階段則是典型的 Memory-bound(內存帶寬受限)任務。

大模型每生成一個 Token(一個字或詞),都需要將整套模型的權重(Weights)以及之前所有對話產生的 KV Cache(鍵值緩存) 從顯存里完整地「搬運」一遍。

這導致了一個極其荒謬的現象:計算核心(Tensor Core)大部分時間都在「空轉」等待數據的送達。

帶寬不夠,再高昂、再先進的 GPU 也不過是擺設。

這就是為什麼 NVIDIA 每一代晶片的升級,算力增長往往是線性的,而 HBM 的帶寬和容量增長卻是指數級的。

HBM 的本質,是高昂的顯存堆疊技術為了苟延殘喘地追趕計算核心速度,而妥協出的「肉搏式」硬體方案。

但這只是市場已經講爛了的故事,更深處的範式革命,發生在 GPU 集群之外。

三、被隱瞞的供應鏈敘事:1M+ Context並不是在GPU里組裝的

我們天天聽各大模型廠商兜售「100萬、200萬甚至無限的上下文窗口(Context Window)」。

普通投資者和非技術背景的行業觀察者普遍認為,這些長上下文是在動輒數萬張 GPU 組成的 AI 算力集群中被實時拼湊和處理的。

這是一個巨大的行業誤解。

GPU 陣列的顯存極其昂貴且空間有限,它只負責最核心的「矩陣乘法」矩陣計算。

那高達 1M 甚至數兆的超長上下文,其真正的物理組裝地點、清洗工坊與狀態維持網路,是在跑 Agentic 系統的傳統通用服務器里(由 CPU + 超大 DRAM 構成)。

當我們拆解一個全自動的 Agentic 智能體系統時,這些傳統服務器的 DRAM(動態內存)里正在發生着一場不為人知的數據風暴:

1. 動態狀態機(Dynamic State Machine)的實時維持

Agent 不是單次觸發的問答機器人,它是一個持續運行的「狀態機」。

它需要實時將用戶的長期記憶(基於向量數據庫的冷數據,從 NAND 喚醒)、短期記憶(當前對話的上下文,熱數據)源源不斷地加載到 DRAM 中。

2. 系統規範(System Prompts)與元認知(Meta-Cognition)的注入

一個複雜的 Agent 往往包含數十個不同角色的子智能體(Sub-agents)。

每個子智能體都有長達數萬字的系統行為規範、防禦提示詞、合規邊界。

這些元認知數據必須常駐內存,以便隨時被主系統調用。

3. 工具鏈與技能庫(Skills & Tools Descriptions)的編排

Agent 在執行任務時(如「幫我分析過去三年的財報並生成圖表」),需要調用無數的外部 API、Python 解釋器或 SQL 數據庫。

這些工具的參數格式、調用邏輯、中間執行狀態,全部積壓在內存中。

4. 極端上下文的「內存壓縮與蒸餾」

當交互輪次讓 Token 數沖向 1M 的極限時,Agent 系統不能直接把這 1M 數據扔給 GPU(會導致顯存溢出或延遲爆炸)。

Agentic 服務器必須在 DRAM 中利用算法對上下文進行動態的注意力蒸餾(Attention Distillation)、語義剪枝(Semantic Pruning) 和 實時總結(Real-time Summarization)。

這一系列複雜的、高頻的、帶有強邏輯判斷的數據流轉,100% 跑在 Agentic 服務器的 DRAM 里。

GPU 只是那個負責在最後關頭「提筆寫字」的流水線工人,而傳統服務器里由超大 DRAM 構成的空間,才是運籌帷幄的「幕僚團」和「檔案館」。

四、跨越時代的對比:從Web 2.0的「無狀態畫像」到Agentic的「全意識流」

為了理解這場儲存革命的恐怖體量,我們必須將其與過去的網路/行動網路時代進行縱向對比。

在過去的 Web 2.0 時代(無論是谷歌的搜尋、抖音的推薦,還是淘寶的廣告系統),核心邏輯是「無狀態的短文本交互」。

  • 你點擊一個影音,系統向服務器發送一個幾 KB 的請求(Request),服務器返回一個推薦列表(Response)。

  • 網路服務器幾乎不需要處理和維持用戶的實時上下文。

  • 數據中心只需要在後台數據庫里留存非常稀疏的用戶標籤(如:男性、25歲、喜歡數碼)。這個數據量極其微小。

Agentic 系統處理的數據量,是傳統網路系統的 20 倍,甚至 100 倍以上。

因為 Agent 處理的是「全意識流(Full Stream of Consciousness)」。

當你在和一個個人的 AI Agent 協同工作時,它不僅要記住你剛剛說的那句話,還要實時調用你整個操作系統的文件、你的日程表、你過去一年的郵件往來,甚至你的語氣偏好。

每一次 Agent 的思考流(Thought Stream),都是一次多源數據的空間交匯。這種對內存空間的強占有性,是人類 IT 史上從未出現過的「吞噬怪」。

五、供應鏈的鐵血實證:1 : 4到1 : 16的結構性巨變

華爾街和分析師們喜歡聽宏大的故事,但工業界的供應鏈從來不撒謊,它們用真金白銀的設備採購指標投出了選票。

在傳統的雲端運算數據中心裡,一台通用服務器的配置比例(CPU 核心數與內存容量的配比)長期維持在:

$$\text{1 CPU Core} : \text{4 GB DRAM}$$

這是一個維持了十幾年、被認為最符合經濟效益的黃金比例。

然而,過去一年的供應鏈訂單顯示,為了適配 Agentic AI 系統的全量鋪開,這個比例已經發生了結構性斷裂,直接躍升至:

$$\text{1 CPU Core} : \text{16 GB DRAM}$$

並且,這個數字正在向 1 : 32 甚至 1 : 64 狂飆。

但這僅僅是硬體配比的單點變化,真正的鏈式反應發生在並發服務能力(Concurrency Capacity) 的塌陷上。

在 Agentic 狀態下,因為單個用戶所占用的上下文、記憶體和工具鏈數據過於龐大,單顆 CPU 能夠同時服務的用戶數(QPS),暴跌到傳統網路時代的幾分之一甚至十幾分之一。

這是一個驚人的商業算力黑洞。

這意味著,當整個全球 IT 基礎設施徹底從 Web 2.0 切換到 Agentic AI 驅動的生態時,我們要維持和過去一樣的用戶並發量,全球數據中心所需的硬體總量將發生異變:

  • CPU 數量: 並非如市場所說的被 GPU 完全取代,而是作為儲存調度器,其數量將迎來幾倍至十幾倍的反彈增長。

  • DRAM(內存)總量: 將迎來幾十倍乃至上百倍的指數級需求暴增。

六、終極結論:這絕非周期,這是一次以「儲存」為核心的硬體範式坍塌

當全行業都在用「儲存晶片是周期行業(Cyclical Industry)」的傳統眼光來審視三星、SK 海力士和美光的財務報表時,他們正在犯下時代的錯誤。

拉長時間軸看,萬物皆有周期。

但當技術範式發生躍遷時,新需求的爆發會徹底拉長周期的波峰,將一個原本 2 年一震盪的「短庫存周期」,硬生生撐成一個長達數十年、震耳欲聾的「超級結構性周期(Super Structural Cycle)」。

當前的時間節點具備兩個極端的剪刀差特徵:

  • 人群滲透率極低: 全球真正用上原生 Agent 系統的活躍用戶,比例甚至不足 1%。

  • 使用深度極淺: 絕大多數用戶對 AI 的使用還停留在「幫我潤色一段話」的 Stateless 階段,真正讓 Agent 7x24 小時掛機搞定複雜工作流的深度應用才剛剛抬頭。

  • 在未來至少 5 年內,我們根本看不到這一輪由 Agentic AI 驅動的儲存需求周期的頂部。

    軟體範式的改變(從無狀態問答到長程有狀態智能體),必然逼迫硬體範式發生同頻共振(從計算中心論走向儲存中心論)。

    誰真正讀懂了 AI 智能體的底層運行邏輯,誰就會明白:這一輪的儲存暴漲,不是硅周期的回暖,而是一次人類資訊技術架構的推倒重來。

    算力決定了 AI 能跑多快,但儲存,最終決定了 AI 能走多遠。

    來源:金色財經

    發佈者對本文章的內容承擔全部責任
    在投資加密貨幣前,請務必深入研究,理解相關風險,並謹慎評估自己的風險承受能力。不要因為短期高回報的誘惑而忽視潛在的重大損失。

    暢行幣圈交易全攻略,專家駐群實戰交流

    ▌立即加入鉅亨買幣實戰交流 LINE 社群(點此入群
    不管是新手發問,還是老手交流,只要你想參與加密貨幣現貨交易、合約跟單、合約網格、量化交易、理財產品的投資,都歡迎入群討論學習!

    前往鉅亨買幣找交易所優惠


    section icon

    鉅亨講座

    看更多
    • 講座
    • 公告

      Empty
      Empty