menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon

美股

自我訓練或抄襲?專家:DeepSeek使用的技術在AI界廣為人知

鉅亨網新聞中心 2025-02-01 11:00

cover image of news article
自我訓練或抄襲?專家:DeepSeek使用的技術在AI界廣為人知

近日,中國 AI 公司 DeepSeek 以驚人的低成本和運算資源,成功開發出最先進的 AI 模型,震驚了整個 AI 界和投資界。DeepSeek 公開了其研究論文和模型,供其他開發者使用,引發了兩個關鍵問題:美國是否在 AI 競賽中失去了優勢?以及人們是否真的需要像之前認為的那麼多昂貴的 AI 晶片?

DeepSeek 聲稱,其最新模型的訓練成本約為 560 萬美元,且並未使用最強大的 AI 晶片。由於美國禁止 Nvidia 向中國出售其 H100 圖形處理器,DeepSeek 使用了 2048 個 H800 晶片。然而,DeepSeek 在研究論文中提供的成本和方法資訊並不完整。


奧勒岡州立大學 AI / 機器人教授 Alan Fern 指出,「500 萬美元是指系統的最終訓練運行成本。」為了實驗和確定最終的系統配置,他們很可能花費了更多。根據現有資訊,無法複製 DeepSeek 560 萬美元的訓練運行。

資源受限被迫創新

儘管如此,DeepSeek 似乎在工程創新方面取得了真正的突破,使其模型的訓練和運行成本更低。他們使用的技術,如混合專家架構和思維鏈推理,在 AI 界廣為人知,並被所有主要的 AI 研究實驗室使用。

DeepSeek 的創新之處在於如何將這些技術應用於其模型,並針對資源限制的情況進行優化。由於美國的晶片禁令,DeepSeek 不得不使用較弱的 GPU (Nvidia H800s 而非 H100s),這反而迫使他們開發出新的高效方法。

Anyscale 的共同創辦人 Robert Nishihara 表示:「資源受限會迫使你提出新的創新高效方法。」

DeepSeek 的創新中,最有可能影響其他 AI 實驗室的是利用大型模型 (DeepSeek-V3) 教導小型模型 (R1) 成為推理模型的方法。V3 生成了 80 萬個帶有問題和答案的文字樣本,這些樣本展示了問題的思維鏈。經過一段時間的訓練後,較小的 R1 模型開始自發地「思考」答案。

Adaptive ML 的負責人 Andrew Jardine 解釋說,模型會根據答案的正確與否來調整自己的方法,直到找到正確答案。這種「頓悟時刻」被 DeepSeek 的研究人員稱為「啊哈時刻」。

專家:現在全網都是 AI 生成內容

OpenAI 的 o1 模型也具備推理能力,但 DeepSeek 的 R1 模型和 Gemini Flash 思維版都在努力最佳化思維鏈。 Stability AI 創辦人 Emad Mostaque 指出,OpenAI 最新模型 o1 不會展示推理過程,認為 DeepSeek 的技術並非抄襲,而是透過強化學習實現的。他將 R1 模型比作 AlphaGo Zero,透過自我對弈來提高能力,並表示那些說抄襲的人不了解強化學習的運作方式。

關於「模型輸出含有 OpenAI 痕跡」的指控,Emad 給出了比喻:「這就好比說人類吃了基改玉米就會變成玉米!」他認為,現在全網都是 AI 生成內容,模型訓練時吃到點 OpenAI 資料殘渣很正常。他甚至點名 Llama 和 Gemini,指出它們的訓練資料中也混入了 GPT 的基因。

據《金融時報》報導,OpenAI 認為已發現 DeepSeek 使用 OpenAI 模型生成的內容來訓練自己的模型,這違反了 OpenAI 的條款。

 AI 進化路線的終極對決

這場爭論背後是開源生態與閉源巨頭的話語權之爭,也可能代表 AI 進化路線的終極對決。 

DeepSeek 的突破對於蘋果公司來說可能是個好消息,因為其模型的推理記憶體需求大幅降低,這使得邊緣推理更可行。

技術分析師 Ben Thompson 表示,蘋果的晶片非常適合邊緣推理,因為蘋果的矽晶片使用統一記憶體,CPU、GPU 和 NPU 可以訪問共享的記憶體池。 

Emad Mostaque 認為,像 OpenAI 的 o1 和 DeepSeek 的 R1 這樣的推理模型,明年將可以在智慧型手機上運行,執行博士級任務,耗電量僅為 20 瓦,相當於人腦的耗電量。


Empty