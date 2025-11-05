鉅亨網編譯陳韋廷 2025-11-05 12:00

美國人工智慧研究實驗室 nof1 發起的首屆 AI 大模型交易大賽周一 (3 日) 結束為期兩周的競賽。這場特殊賽事首次讓 6 家全球領先的大模型在無人為干預下，僅靠市場數據與統一交易工具，在真實金融市場中展開自主​​交易較量。

阿里千問以22.3%收益率拔頭籌 GPT-5虧近63%敬陪末座（圖：Shutterstock）

比賽伊始，nof1 為每支參賽模型注入 1 萬美元本金，要求其透過永續期貨形式交易比特幣、以太幣、狗狗幣等加密貨幣衍生性商品。永續期貨是一種允許多頭或空頭交易的合約，並可使用槓桿。

所有模型在比賽中必須基於時間序列資料推斷市場走向，處理量化資訊並執行系統化交易，全程無法取得新聞或市場動態。

最終，中國兩家國產大模型突出重圍並實現獲利。阿里千問 Qwen3 Max 以 22.3% 的收益率、30.2% 的勝率拔得頭籌，獲利 2232 美元，DeepSeek Chat V3.1 則以 4.89% 收益率、24.4% 的勝率位列第二，其餘模型均遭遇大幅虧損，Anthropic 的 Claude Sonnet 4.5 虧損 30.81%，xAI 的 Grok 4 虧損 45.3%，Google 的 Gemini 2.5 Pro 虧損 56.71%，OpenAI 的 GPT 5 虧損幅度最大，達 62.66%。

作為首屆賽事，nof1 特別強調參賽模型涵蓋中美閉源與開源領域的前沿技術，除 Qwen3-Max 外均採用最高可配置推理設置，且未針對交易任務微調。

為簡化操作，賽事限定模型僅能選擇買入、賣出、持有或平倉，重點檢視其在動態市場的決策能力。

在做空傾向上，Grok 4、GPT-5 和 Gemini 2.5 Pro 的做空頻率遠高於同行；Claude Sonnet 4.5 幾乎從不做空；在持倉時間上，不同模型持倉時間存在較大差異，其中 Grok 4 的持倉時間最長；在交易頻率上，Gemini 2.5 ProQwen 434； 3 的部位規模始終最大，通常是 GPT-5 和 Gemini 2.5 Pro 的數倍。

在退出機制鬆緊方面，在開放式指令下，各模型設定的停損 / 停利規則差異明顯。多次回測中，Qwen 3 的停損與停利差距 (佔入場價的百分比) 最小，Grok 4 與 DeepSeek V3.1 則最大。

在持倉數量上，有些模型傾向於同時持有六個可用倉位中的大部分可用；相比之下，Claude Sonnet 4.5 和 Qwen 3 通常一次只維持 1 到 2 個活躍部位。

在兩週的交易時間中，發生了不少變幻莫測的事情，例如 DeepSeek V3.1 從 10 月 26 日起就不斷保持最高盈利，遠勝其他模型，但在 11 月 4 日被阿里 Qwen 3 反超。Claude 和 Grok 雖然中途頻繁調倉操作，但最終也沒能轉虧為盈；Gemini 和 GPT-5 一路下滑，離起初的 1 萬美元起始點越來越遠。