金色財經
作者:Anthropoic;編譯:Peggy,區塊律動
這篇報告基於約 40 萬次 Claude Code 會話,討論 AI 編程工具正在怎樣改變人和代碼之間的關係。
文章最核心的發現是:在智能體編程中,人類主要決定「做什麼」,Claude 主要負責「怎麼做」。用戶承擔大部分規劃決策,Claude 則承擔大部分執行工作。也就是說,AI 正在接管寫代碼、改文件、跑命令、調試等實現環節,但目標設定和結果判斷仍然依賴人。
更重要的是,使用 Claude Code 的效果並不只取決於用戶是否是程序員。報告顯示,在產生代碼的任務中,法律、金融、管理、科研等非技術職業用戶的成功率已經接近軟體工程師。真正影響結果的,是用戶是否理解自己要解決的問題。
這意味著,AI 編程降低的是實現門檻,而不是判斷門檻。未來,懂業務、懂場景、能清楚提出需求和判斷結果的人,可能會比單純會寫代碼的人更能用好 AI。AI 不會自動替代領域知識,反而會放大領域知識的價值。
以下為原文:
在既有研究基礎上,我們提出了一個用於研究交互式智能體編程的框架。該框架基於對 2025 年 10 月至 2026 年 4 月期間約 40 萬次 Claude Code 會話的隱私保護分析,評估任務構成、人類與 AI 協作方式,以及任務成功率。
在一次典型會話中,人類負責大多數規劃決策,即決定「要做什麼」;Claude 則負責大多數執行決策,即決定「如何完成」。用戶在某一領域的專業知識越強,每條指令觸發 Claude 完成的工作量就越大。在編碼任務中,各主要職業群體的平均成功率——即是否完成了用戶原本想做的事,並且有通過測試、提交代碼等可驗證證據——幾乎與軟體工程師持平。
用戶的領域專業能力越強,會話越有可能以成功告終。不過,中級用戶與專家用戶之間的差距並不大。在我們觀察的七個月里,用於調試的會話占比幾乎下降了一半,使用方式也轉向更端到端的智能體用法:部署和運行代碼、分析數據,以及撰寫非代碼文檔。
在這七個月里,典型任務的價值幾乎在所有工作類型中都有所上升。我們通過與自由職業崗位發布資訊進行對比來估算任務價值,結果顯示平均漲幅約為 25%。
智能體編程正在快速興起。自 2025 年底以來,GitHub 項目中出現編碼智能體活動的比例已經翻了一倍多,Claude Code 用戶現在平均每周使用該工具 20 小時。沒有正式編程經驗的人,能否成功指揮一個智能體完成複雜的技術工作?這些工具的快速採用和能力提升,又將如何影響更廣泛的知識工作?我們目前還無法給出完整答案,但可以從 Claude Code 的使用數據中看到一些早期信號。
本報告基於對 2025 年 10 月至 2026 年 4 月期間,約 23.5 萬名用戶、約 40 萬次交互式會話的隱私保護分析,提供 Claude Code 實際使用方式的證據。它延續了我們此前關於 Claude Code 會話中自主性指標,以及 Claude Code 如何改變 Anthropic 內部工作的研究。本文將提出一個用於描述交互式 AI 編程助手使用情況的框架:人們在做什麼工作,誰在做這些工作,以及工作是否成功。我們關注的是用戶通過命令行界面(CLI)、Claude.ai 或 Claude Code 桌面應用使用 Claude Code 的情況。通過追蹤智能體編程使用方式如何隨著模型能力增強而變化,我們可以更好地理解這些工具對編程專業人士和知識工作者勞動力市場的影響。
Claude Code 上發生的事情,或許預示着知識工作的未來走向:智能體會逐漸嵌入非編碼工作。我們發現,Claude 正在處理更複雜、更有價值的任務。與此同時,智能體編程中仍然存在清晰的勞動分工:人類決定要構建什麼,智能體決定如何構建。
我們還看到證據表明,真正放大工具使用效果的是領域專業知識,而不是編程熟練度。尤其是領域專家更容易成功,也更容易從錯誤和誤解中恢復過來。不過,專家與中級用戶之間的差距並不大。這表明,只要在某一領域具備足夠熟練度,就幾乎可以像深度專家一樣有效地使用這類工具。
這些發現讓我們能夠初步觀察勞動力市場可能發生的轉變。在我們的數據中,成功取決於一個人是否理解自己要解決的問題,而不是他是否接受過編程訓練。如果這些模式在整個經濟體系中成立,那麼它意味著,智能體編程工具雖然可能正在吸收一部分偏實現型的工作,但同時也在獎勵那些真正理解自己工作中所解決問題的人。編碼智能體並不是在替代領域專業知識。相反,一個工作者帶給智能體的理解越多,智能體能夠完成的高質量工作就越多。
為了理解人們如何使用 Claude Code,我們將每一次會話歸類到九種工作模式之一,即最能描述該會話目標的單一活動。其中四種模式直接涉及代碼編寫或維護:構建新東西、修復損壞的東西、測試代碼,以及編排其他智能體或自動化流水線。另一類是操作軟體,包括部署、配置、運行流水線和監控系統。還有兩類更偏向於弄清楚「該做什麼」:理解一個現有系統如何運作,以及在動手修改前規劃變更。最後兩類則與代碼無關,或者代碼只是最終產物中的輔助部分:分析數據,以及通過演示文稿和其他基於文字的文檔進行溝通。
約 56% 的會話由編寫代碼(25%)、修復代碼(26%),或測試和編排代碼(5%)構成。操作軟體占 17%,規劃或探索占 14%,分析或撰寫文本占 13%(見圖 1)。
我們先讓模型閱讀會話記錄,並據此對每次會話進行分類;隨後再使用我們的隱私保護分析工具,將分類結果與每次會話自動記錄的遙測數據進行交叉驗證,包括是否新增或刪除了代碼行。兩類來源之間具有高度一致性。例如,在我們的分類器標記為創建或修改代碼的會話中,超過 90% 在遙測數據中也顯示存在代碼變更。詳情見附錄。
Claude Code 的自主性有多強?能力評估顯示,其上限已經很高,並且仍在上升。例如在 METR 的時間跨度評估等基準測試中,前沿模型現在已經能夠自主完成原本需要人類花費數小時的軟體任務,並在過程中自行克服障礙。但在實際使用中,情況到底如何?在這裡,我們關注真實會話中,人類和 Claude 各自承擔了多少引導工作。
我們從兩個角度研究這個問題。第一,我們關注人們在多大程度上把決策交給 Claude;第二,我們觀察他們給 Claude 分配了多少行動。為了理解一次會話中的決策分工,我們基於會話內容構建了一個隱私保護的決策歸因分類器。我們要求分類器列出會話中所有有意義的決策,並將這些決策分為規劃決策和執行決策。規劃決策包括要做什麼、採用哪種方法、什麼算完成;執行決策包括要修改哪些文件、寫什麼代碼、用什麼語言寫,以及運行哪些命令。隨後,分類器會將每個決策歸因於 Claude 或用戶,並為每次會話生成兩個數字:用戶承擔的規劃決策占比,以及用戶承擔的執行決策占比。
平均而言,人類大約做出 70% 的規劃決策,但只做出 20% 的執行決策(見圖 2)。在實際使用中,智能體編程形成了清晰的勞動分工:人類決定要構建什麼,智能體決定如何構建。
為了理解一次會話中行動的委派程度,我們不看內容,而是看會話結構。Claude Code 會話由 Claude 和用戶之間的來回交互構成:用戶發送提示詞,Claude 執行動作;隨後用戶再發送下一條提示詞,如此往復。在典型會話中,這樣的輪次約為四輪。在我們 10 月至 4 月的歷史數據中,用戶每發出一條提示詞,平均會觸發 Claude 執行約 10 個動作,有時甚至超過 100 個動作。在每一輪中,Claude 會讀取文件、編輯代碼、運行命令,並平均輸出 2400 個詞。
Claude 在兩次用戶檢查之間完成多少工作,很大程度上取決於誰在做決策。當用戶保留對執行過程的控制權時,也就是用戶做出超過 80% 的執行決策時,Claude 每輪執行的動作更少,約為 8 個。而當 Claude 掌握規劃控制權時,也就是 Claude 做出超過 80% 的規劃決策時,它承擔的動作數量最高,約為 16 個。
根據每份會話記錄,Claude 會以五級量表評估用戶在該任務上的表觀專業水平,從新手到專家。專業水平分類器關注三個信號:用戶給出指令的精確程度、用戶要求 Claude 驗證什麼,以及是用戶更常糾正 Claude,還是 Claude 更常糾正用戶。需要注意的是,這裡的專業水平與職位或一般能力是完全不同的概念,而且關鍵在於,它是針對具體任務的。一個資深工程師第一次詢問 Rust 問題,在 Rust 任務上仍然可能是初學者。一個從未使用過 Python 的會計,如果能準確告訴 Claude 某個 Python 腳本必須執行哪些對賬規則,並能抓住其在月末結賬時誤處理的邊界情況,那麼他就是該任務上的專家。
下表展示了我們如何在分類器中定義各級專業水平,並給出來自公開編碼智能體會話數據集 SWE-chat 的示例請求。被歸類為「新手」的對話給出的是泛泛指令,沒有體現特定領域知識;被歸類為「專家」的對話則傳達了對代碼庫和技術環境的深入理解。
我們量化了專業水平與 Claude 每條提示詞所產生輸出和活動量之間的關係。在典型的新手會話中,每條提示詞會觸發 Claude 執行約 5 個動作,並輸出約 600 個詞;而在專家會話中,動作鏈長度超過前者兩倍,約為 12 個動作,輸出量則達到約 3200 個詞,是前者的五倍(見圖 3)。這種新手與專家之間的差距,出現在每一種工作類型和每一個任務價值區間中。
這些指標補充了我們此前關於 Claude Code 的自主性研究。此前的研究追蹤智能體運行時長,以及用戶多頻繁地自動批准其行動。相比之下,我們的決策歸因指標捕捉的是整次會話中誰在做實質性決策,而每條提示詞觸發的輸出量和動作數,則衡量每條人類指令能夠引發 Claude 多大程度的自主活動。
為了理解是誰在做這些工作,我們根據會話記錄推斷每位用戶的職業,並將其映射到美國勞工統計局標準職業分類(SOC)體系中的 23 個主要類別之一。分類器被要求只依據如下信號進行判斷:智能體在會話開始時加載的項目上下文、文件名稱和結構、用戶引用的資料或產物,例如法律文件、臨床數據、財務報告、課程材料等,以及用戶使用的詞彙。分類器被明確要求,不得將「正在寫代碼」本身視為用戶從事編程職業的證據。只有在存在明確信號表明軟體或數據工作是用戶職業時,會話才會被歸入編碼相關 SOC 類別,即「計算機與數學職業」。如果一名律師構建一個腳本,用於自動檢查一組合約中是否缺少某些條款,那麼即便這次會話主要是在寫軟體,它仍會被歸入法律職業。如果沒有任何關於用戶職業的信號,該會話則不分類。
我們能夠在約 70% 的會話中推斷出職業。在這些可分類會話中,「計算機與數學職業」是最大的群體,這並不令人意外,因為該類別涵蓋了大多數軟體相關工作。其次是商業與金融營運、藝術設計與媒體、管理,以及生命科學、物理科學和社會科學。在我們的樣本中,增長最快的非軟體職業群體是管理、銷售和法律職業。
從 2025 年 10 月到 2026 年 4 月,人們使用 Claude Code 完成的工作構成發生了顯著變化。最明顯的變化是,用於修復損壞代碼的會話占比從 33% 下降到 19%(見圖 4)。取而代之的是更多圍繞代碼展開的工作。操作軟體的占比從 14% 上升到 21%。寫作和數據分析大約翻了一倍,從約 10% 上升到約 20%。
任務本身的價值也在上升。我們通過估算同類工作在自由職業市場上的成本來近似衡量每次會話的經濟價值,並使用真實公開崗位數據集進行校準。按照這一指標,平均會話的估算價值在 10 月至 4 月期間上升了 27%。這一上升出現在多種工作類型中。構建、操作和修復類任務的價值分別大約增長了 43%、34% 和 32%。這些價格估算較為粗略,因此我們主要用它們來比較不同任務之間隨時間變化的趨勢,而不是將其作為可直接讀取的美元價值。有關任務價值估算器構建方式的詳情,見附錄。
估算任務價值,是理解 Claude Code 如何幫助人們完成工作的一種方式。另一個角度,是觀察有多少會話成功,以及哪些會話特徵與成功相關。在所有成功指標中,我們都看到一個清晰模式:用戶在會話中表現出的專業水平越高,會話成功的可能性越大。大部分提升集中在專業水平較低的一端,也就是說,從新手到中級用戶的差距,大於從中級用戶到專家用戶的差距。
在分析成功會話的特徵之前,我們需要準確說明如何衡量成功。我們無法觀察用戶的真實世界結果,也無法直接詢問他們是否通過 Claude 完成了自己想做的事。因此,我們依賴兩種互補的、基於會話記錄的衡量方法。第一種是「判定成功」,由分類器閱讀完整會話記錄後判斷用戶是否完成了自己原本設定的目標,選項包括成功、部分成功、失敗、無明確目標。隨後,兩個配套分類器會評估該判斷的證據強度,以確定「經驗證成功」。成功信號分類器會尋找可驗證的成功證據,尤其包括與該工作相匹配的 git 活動,例如提交和拉取請求、測試套件通過,以及用戶明確表示認可。它會按照從「無信號」到「弱信號」(1 分)再到「多個硬信號」(5 分)的等級對會話打分。另一個並行的失敗信號分類器則會對事情出錯的證據進行評分,包括錯誤、測試失敗、反覆嘗試同一件事,以及用戶對輸出提出反對等。經驗證成功要求兩個條件同時成立:會話被判定為成功,並且至少存在一個硬性的可驗證成功信號。以下分析關注會話中的成功或失敗程度,因此我們排除了被成功結果分類器判定為「無明確目標」的會話,這類會話約占完整樣本的 7.7%。
那麼,哪些會話最容易成功?結果顯示,上文所述的會話專業水平評分,對會話成功具有很大影響。
有人可能會擔心,專業水平並不是真正的驅動因素。也許專家只是選擇了不同的任務,或者在其他方面存在差異。在本節中,我們通過比較相同工作類型、相同估算價值、相同月份、相同主題、來自同一大類職業群體的會話,部分回應了這種擔憂,並考察用戶專業水平不同會如何影響結果。
在所有成功指標中,用戶在會話中表現出的專業水平越高,會話越可能成功。被評為新手的會話,在我們最嚴格的指標「經驗證成功」上達到成功的比例為 15%,達到至少部分成功的比例為 77%。而被評為中級及以上的會話,經驗證成功率為 28% 至 33%,部分成功率為 91% 至 92%(見圖 5)。
在每一種指標中,大部分收益都來自從新手到中級的提升;從中級到專家,斜率則會放緩。關於圖 5 背後的回歸分析細節,見附錄。
在遇到挑戰的會話中,也可以看到類似的梯度。當失敗信號記錄到經驗證的失敗證據時,我們認為該會話「遇到問題」。這可能包括出現錯誤、測試失敗、多次嘗試完成同一件事,或者用戶表達挫敗和不滿。在遇到問題的會話中,控制上述所有變量後,經驗證成功的比例從新手會話的 4% 上升到專家會話的 15%(見圖 5)。如果使用更寬鬆的成功指標,我們發現至少部分成功的比例,在新手用戶中為 60%,在中級至專家用戶中則為 80% 至 81%。
我們也追蹤了另一種反向關係,即專業水平與各類失敗指標之間的關係。需要注意的是,在這項分析中,被判定為失敗的會話,是那些連部分成功都沒有達到的會話。如果一次遇到問題的會話被判定為失敗,並且沒有寫入任何代碼行,我們稱之為被放棄。在用戶看起來是新手的會話中,有 19% 最終被放棄;而在其他用戶群體中,這一比例為 5% 至 7%。換言之,經驗最少的用戶在努力達成目標卻遇到困難時,更容易放棄。專業能力的一部分價值,似乎體現在能夠把智能體引導回正確方向。
軟體相關職業用戶在所有會話中的經驗證成功率約為 30%,其他職業用戶約為 26%。在產生代碼的會話中,即至少新增或修改一行代碼的會話中,這兩個數字分別為 34% 和 29%(見圖 6)。如果使用更寬鬆的成功定義,軟體相關職業與其他職業之間的差距會進一步縮小。在產生代碼的會話中,兩類用戶達到至少部分成功的比例分別為 89% 和 88%。五個百分點的差距並不大,並且在七個月中既沒有擴大,也沒有縮小,儘管兩個群體的成功率都在提升。在產生代碼的會話中,我們數據集裡規模最大的十個職業群體,每一個與軟體工程師在成功率上的差距都在七個百分點以內。管理類職業在經驗證成功率上最高,略高於軟體工程類職業。管理者更高的經驗證成功率,可能反映了管理技能可以遷移到指揮智能體這一任務上。但這也可能部分來自我們的測量方式:驗證在一定程度上依賴會話中用戶的明確確認,而管理者可能更習慣在得到自己想要的結果時進行表達。
本報告的結果勾勒出一幅正在形成的圖景:智能體編程正在放大某些知識和技能,同時替代另一些技能。在產生代碼的會話中,各主要職業的成功率都與軟體相關職業相差不大。看起來,編碼智能體正在讓是否具備編程背景,對成功完成編程任務變得不那麼重要。
與此同時,成功會話更可能表現出領域專業知識。被評為專家的會話,其經驗證成功率是新手會話的兩倍以上。當會話遇到問題時,新手放棄的比例也比其他用戶高出數倍。協作方式本身讓這一圖景更清晰:領域專家能夠用每一條指令引導 Claude 完成更多工作。因此,將 Claude 引向成功的能力,更多來自對某一領域的掌握,而不是書寫代碼的能力。任何領域中具備這種掌握能力的人,現在都可能完成過去無法完成的技術工作。而缺乏這種專業理解的人,即使用同樣的工具,收穫也會少得多。並且,收益主要來自勝任,而不是精通。對某一領域有可操作的理解,就已經能獲得大部分收益;深度專業化在此基礎上只會再帶來少量額外優勢。
這些發現仍是初步的。與我們大多數研究一樣,我們無法衡量真實世界結果,例如一次會話中寫出的代碼後來究竟被使用還是被丟棄,或者它是否產出了具有經濟價值的成果。此外,本報告排除的非交互式使用,占總體活動中的相當大一部分。開發一個能夠衡量這類使用的框架,是未來工作的重點之一。並且,我們對會話的所有分類,都依賴模型對會話記錄的閱讀。在附錄中,我們展示了分類器與獨立遙測數據在預期方向上保持一致,並且在多數會話中與強參考模型判斷一致。但在大規模場景下,驗證分類器仍然很難;Claude Code 會話本身也增加了難度,因為它們可能過長且過於複雜,難以用人工標註作為真實基準。
隨著模型、用戶以及二者之間的勞動分工不斷變化,本報告中的圖景也會持續更新。我們希望這些指標能夠幫助我們追蹤正在發生的重大轉變。例如,如果未來專業水平帶來的回報開始下降,那將表明模型開始提供用戶目前所帶來的關鍵判斷,而這些工具的收益也將從領域專家擴展到更廣泛的人群。如果軟體職業之外的用戶成功完成編碼會話的比例繼續上升,則可能意味著軟體生產正在成為各領域普通工作的一部分,而不再是單一職業的產物。這些轉變將改變誰能從智能體編程中受益,以及受益多少,並對勞動力市場中最被重視的能力產生影響。
來源:金色財經
發佈者對本文章的內容承擔全部責任
在投資加密貨幣前,請務必深入研究,理解相關風險,並謹慎評估自己的風險承受能力。不要因為短期高回報的誘惑而忽視潛在的重大損失。
暢行幣圈交易全攻略,專家駐群實戰交流
▌立即加入鉅亨買幣實戰交流 LINE 社群(點此入群)
不管是新手發問,還是老手交流,只要你想參與加密貨幣現貨交易、合約跟單、合約網格、量化交易、理財產品的投資,都歡迎入群討論學習!
上一篇
下一篇