區塊鏈

一周省下3億Token：Anthropic工程師的Claude Code緩存指南

金色財經2026-05-23 20:00

作者：Nate Herk；編譯：Peggy，BlockBeats

很多人使用 Claude Code 時，最直觀的感受是 Token 消耗太快、長會話很容易吃額度。但從 Anthropic 工程師的視角看，真正影響成本的，往往不是你寫了多少代碼，而是系統有沒有持續復用已經處理過的上下文。

本文分享的核心，就是如何通過緩存機制節省 Token。作者一周內通過緩存復用了超過 3 億 Token，單日緩存量達到 9100 萬。由於緩存 Token 的成本只有普通輸入 Token 的 10%，這意味著 9100 萬緩存 Token 實際計費約等於 900 萬普通 Token。Claude Code 長會話之所以顯得更「耐用」，不是因為模型免費工作，而是大量重複上下文被成功復用了。

Prompt caching 的關鍵在於「不要打斷緩存」。Claude Code 會把系統提示、工具定義、CLAUDE.md、項目規則和歷史對話分層緩存；只要後續請求的前綴保持一致，Claude 就可以直接讀取緩存，而不是重新處理整段上下文。Anthropic 內部也會監控 prompt cache 的復用率，因為它不僅影響用戶額度，也直接關繫到模型服務成本和運行效率。

‌

對普通用戶來說，不必理解所有底層細節，只需要掌握幾個關鍵習慣：不要讓會話空置超過 1 小時；切換任務時做好 session handoff；避免頻繁切換模型；大文檔儘量放進 Projects，而不是反覆粘貼進對話。

這篇文章與其說是在講一個省 Token 技巧，不如說是在提供一套更接近工程師思維的 Claude Code 使用方法：把上下文當作資產管理，讓緩存持續復用，讓長會話少做重複計算。

以下為原文：

我這周省下了 3 億 Token，單日 9100 萬，一周超過 3 億。

我沒有改動任何設置。這只是 prompt caching 在後台正常發揮作用。

但當我真正理解了緩存是什麼，以及怎樣避免把緩存「打斷」之後，在同樣的使用額度下，我的會話可以持續更久。所以，這裡整理一份 Claude Code prompt caching 的 80/20 入門指南，不涉及 API 層面的深度細節。

TL;DR

緩存 Token 的成本只有普通輸入 Token 的 10%。9100 萬緩存 Token，實際計費大約相當於 900 萬 Token。

Claude Code 訂閱版的緩存 TTL 是 1 小時；API 默認是 5 分鐘；Sub-agent 永遠是 5 分鐘。

緩存分為三層：系統層、項目層、對話層。

會話中途切換模型會破壞緩存，包括開啟「opus plan」模式。

緩存到底怎麼算錢？

每一個被緩存的 Token，成本都是普通輸入 Token 的 10%。

所以，當我的儀錶盤顯示某一天有 9100 萬 Token 命中了緩存時，實際計費大概只相當於處理了 900 萬 Token。這也是為什麼和沒有緩存相比，長時間使用 Claude Code 時，會讓人感覺會話幾乎是「免費」延長的。

儀表盤裡有兩個數字值得重點關註：

Cache create：把內容寫入緩存時產生的一次性成本。它會在下一輪對話中開始發揮作用。
Cache read：Claude 從緩存中復用的 Token，比如你的 CLAUDE.md、工具定義、此前的消息等。相比重新作為輸入處理，成本便宜 10 倍。

如果你的 Cache read 數字很高，說明你正在有效利用緩存；如果這個數字很低，就意味著你在為同一批上下文反覆付費。

Anthropic 的 Thariq 有一句話讓我印象很深：「我們實際上會監控 prompt cache 的命中率，一旦命中率過低，就會觸發警報，甚至宣布 SEV 級別的事故。」

他還寫過一篇很好的 X 文章。當緩存命中率高時，會同時發生四件事：Claude Code 體感更快，Anthropic 的服務成本下降，你的訂閱額度顯得更耐用，長時間編碼會話也變得更現實。

但如果命中率很低，所有人都會吃虧。

所以，雙方的激勵其實是一致的：Anthropic 希望你的緩存命中率更高，你自己也希望命中率更高。真正會拖後腿的，只是一些看似不起眼、卻會悄悄重置緩存的小習慣。

緩存是如何在每一輪對話中增長的？

緩存依賴的是 prefix matching，也就是「前綴匹配」。

不用陷入太深的技術細節，你只需要理解一點：只要某個位置之前的內容和已經緩存的內容完全一致，Claude 就可以復用這部分緩存 Token。

一次全新的會話，大致是這樣展開的：

根據 Claude Code 文檔，一個全新會話通常是這樣運行的：

第一輪對話：還沒有任何緩存。系統提示詞、你的項目上下文（比如 CLAUDE.md、memory、規則），以及你的第一條消息，都會被重新處理一遍，並寫入緩存。

第二輪對話：第一輪中的所有內容現在都已經被緩存。Claude 只需要處理你的新回復和下一條消息。這一輪成本就會低很多。

第三輪對話：邏輯相同。之前的對話仍然保留在緩存里，只有最新的一輪交互需要重新處理。

緩存本身可以分成三層：

來自 Thariq 的 X 文章：

系統層（System layer）：包括基礎指令、工具定義（read、write、bash、grep、glob）和輸出風格。這一層是全局緩存的。

項目層（Project layer）：包括 CLAUDE.md、memory、項目規則。這一層按項目緩存。

對話層（Conversation）：包括回復和消息，會隨著每一輪對話不斷增長。

如果在會話中途，系統層或項目層的任何內容發生變化，所有內容都必須從頭重新緩存一遍。這就是最「貴」的操作。可以想象一下：你已經聊到第 16 條消息，這時突然改了系統提示詞，或者中途停了一個小時，那麼從第 1 條消息開始的所有 Token 都要被重新處理一遍。

1 小時和 5 分鐘的混淆

這是最容易讓人誤解的地方。

Claude Code 訂閱版：默認 TTL 是 1 小時。

Claude API：默認 TTL 是 5 分鐘。你可以付出更高成本，把它提升到 1 小時。
任何計劃下的 Sub-agent：永遠是 5 分鐘。

Claude.ai 網頁聊天：官方沒有明確記錄。可能和訂閱版一樣，但我還沒有確認。

幾個月前，很多人抱怨 Claude 訂閱額度消耗得太快。當時有人以為 Anthropic 悄悄把 TTL 從 1 小時降到了 5 分鐘，而且沒有通知用戶。但事實並不是這樣，Claude Code 的 TTL 仍然是 1 小時。

問題在於，Claude Code 和 API 的文檔是分開放的，而這兩者本來就是完全不同的東西，於是造成了不少混淆。

如果你在大量運行 Sub-agent 工作流，或者直接使用 API，那麼 5 分鐘這個數字很重要。但對於 95% 的 Claude Code 用戶來說，真正需要關注的，其實只有那個 1 小時窗口。

覆蓋 95% 用戶的三個習慣

下面這些，是我覺得日常使用中真正有用的部分。

不要暫停太久

如果你已經空閒超過一個小時，之前的內容基本都已經從緩存里過期了。你的下一條消息會重新構建緩存。這種情況下，與其繼續恢復一個已經「變涼」的舊會話，不如做一次清晰的交接，然後開啟一個新會話，成本通常更低。

切換任務時，直接重新開始

/compact 或 /clear 本來就會破壞緩存，所以不如趁這個節點真正重置一次。

我自己做了一個 session handoff skill，用來替代 /compact。它會總結我們已經完成了什麼、還有哪些待定決策、哪些文件最重要，以及接下來應該從哪裡繼續。然後我執行 /clear，把這份總結貼進去，就可以像什麼都沒中斷一樣繼續推進。

compact 命令有時候運行得也很慢。而這個 handoff skill 通常不到一分鐘就能完成。

在 Claude 聊天裡，大文檔儘量放進 Projects

Claude.ai 上的緩存機制沒有非常詳細的官方說明，但 Projects 顯然和普通對話線程採用了不同的優化方式。所以，如果你要粘貼很大的文檔，最好把它們放進 Project，而不是直接塞進對話里。

哪些操作會悄悄破壞緩存？

有幾件事會在沒有明顯提醒的情況下，把緩存全部重置。

切換模型：因為緩存依賴前綴匹配，而每個模型都有自己的緩存。只要切換模型，下一次請求就會在沒有任何緩存命中的情況下，重新讀取完整歷史。

「Opus plan」模式：這個設置會在規劃階段使用 Opus，在執行階段使用 Sonnet。我之前在一些 token 優化影音里推薦過它，是有原因的。但需要理解的是，每一次切換 plan，本質上都是一次模型切換，也就意味著要重新建立緩存。從長期看，它仍然有助於延長會話額度，但你需要知道底層到底發生了什麼。

會話中途編輯 CLAUDE.md 是可以的：這個修改不會立刻生效，要等下一次重啟才會應用。因此，當前正在運行的緩存不會受到影響。

我的免費 Token 儀錶盤

我前面展示的截圖，來自一個 token dashboard。

https://github.com/nateherkai/token-dashboard

這是一個很簡單的 GitHub 倉庫。你把鏈接交給 Claude Code，讓它在本地 localhost 上完成部署，它就會讀取你過去所有的會話記錄，而不是從空白狀態開始統計。你一上來就能看到每天的 input、output、cache create 和 cache read 數據。

不過有一點需要注意：這個儀錶盤統計的是本地設備上的 Token 數據。如果你從台式機切換到筆記本，數字就不會完全一致。每台設備都有自己的一套統計視圖。

總結

Prompt caching 是一個可以研究得很深的東西。Thariq 那篇文章講得比這裡更完整，如果你想看全貌，值得去讀。

但你不需要完全理解所有細節，才能從中受益。你只需要掌握最關鍵的 80/20：緩存 Token 比普通 Token 便宜 10 倍；Claude Code 的 TTL 是 1 小時；切換模型會破壞緩存；在任務之間做好清晰交接，通常比讓一個舊會話放到「過期」後再硬接着用更劃算。

來源：金色財經

發佈者對本文章的內容承擔全部責任
在投資加密貨幣前，請務必深入研究，理解相關風險，並謹慎評估自己的風險承受能力。不要因為短期高回報的誘惑而忽視潛在的重大損失。

暢行幣圈交易全攻略，專家駐群實戰交流

▌立即加入鉅亨買幣實戰交流 LINE 社群（點此入群）
不管是新手發問，還是老手交流，只要你想參與加密貨幣現貨交易、合約跟單、合約網格、量化交易、理財產品的投資，都歡迎入群討論學習！

▶ 前往鉅亨買幣找交易所優惠

‌

文章標籤

金色財經加密貨幣虛擬貨幣 BTC

延伸閱讀

鉅亨講座

看更多

講座
公告

上一篇
Tether與Circle巨頭夾擊下外匯穩定幣如何跑出來？
下一篇
為什麼外匯穩定幣始終未能起飛？

‌

‌

‌

‌