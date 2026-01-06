鉅亨網新聞中心 2026-01-06 09:52

輝達 (NVDA-US) 在年度消費性電子展（CES）上投下震撼彈，執行長黃仁勳宣布，正式開源旗下首個推理型「視覺 - 語言 - 動作」（Visual-Language-Action, VLA）模型 Alpamayo 1，不僅代表輝達在無人駕駛領域邁出關鍵性的一大步，更預告了「實體 AI」（Physical AI）的「ChatGPT 時刻」已經到來，即將徹底改變機器對真實世界的理解、推理與行動方式。

自駕車真的會想了！輝達開源推理 VLA 模型 第一季上路實測。(圖:SHUTTERSTOCK)

黃仁勳在發布會上激動地指出：「實體 AI 的 ChatGPT 時刻已然降臨——機器開始理解、推理並在真實世界中採取行動。無人計程車將是首批受益者。」

他強調，Alpamayo 平臺的核心使命，是為自動駕駛汽車帶來強大的「推理」能力，使其能夠像人類駕駛一樣，在面對罕見或複雜場景時，進行深入的思考、制定安全的駕駛策略，並能解釋其決策背後的邏輯。這種可解釋性與安全性，正是建構可規模化、可靠自動駕駛技術的基石。

輝達此次開源的 Alpamayo 1 模型，採用了百億級（100 億）參數的龐大架構，其設計理念旨在打造能在遭遇意外情況時，例如交通號誌突然故障、臨時道路施工等「長尾問題」場景，能夠「思考」並提出解決方案的未來車輛。

車載電腦將不再僅僅是簡單地感知路況，而是能夠接收來自攝影機、雷達等感測器的大量即時視訊輸入，將其分解為一步步的推理流程，進而生成出安全、合理的駕駛軌跡。

這項技術的實際執行的速度超乎想像。黃仁勳同時宣布，首款搭載輝達技術的量產車款，預計將在今年第一季正式於美國道路上投入使用，宣告自動駕駛技術已從實驗室階段，大步邁向商業應用。

超越傳統模型的智慧核心

推理型 VLA 技術是 Alpamayo 平台的靈魂所在。不同於傳統的視覺 - 語言 - 動作模型，推理型 VLA 不僅限於將視覺輸入直接粗略地映射到駕駛動作，而是巧妙地整合了明確的 AI 推理功能。

這項技術賦予了 AI 系統逐步解決複雜問題的能力，並能產生類似於人類思考過程的「推理痕跡」（reasoning traces）。

簡單來說，推理型 VLA 模型是一種統一化的 AI 模型，它將三個基礎核心功能——視覺感知、語言理解和動作生成——與逐步推理緊密結合在一起。這些系統經過海量網際網路規模任務的預先訓練，涵蓋語言生成和視覺連結，藉此累積通用知識和感知基礎。

當推理型 VLA 模型面臨一個複雜的駕駛任務時，它會將其分解成數個易於管理的子問題，並以可解釋的形式闡明其推理過程。這不僅顯著提升了模型的決策準確性，更能對模型採取的行動提供一定程度的自我反思能力，極大增強了自動駕駛系統的透明度與安全性。

透過一個交通實例來理解：當一輛配備 Alpamayo 系統的車輛接近一個繁忙的十字路口時，系統可能會進行如下的人類般推理流程：「我偵測到前方有一個停車標誌（Stop Sign），同時左側有車輛正在駛來，人行道上還有行人準備過馬路。因此，我應該減速，完全停車，等待行人通過人行橫道，確認完全安全之後，才能繼續向前行駛。」

為了建構這種複雜的推理 VLA 模型，需要三大基本 AI 功能的共同合作：

視覺感知（Visual Perception）： 負責處理來自攝影機、毫米波雷達或光學雷達（LiDAR）等各種感知感測器的即時數據流。

語言理解（Language Understanding）： 透過自然語言處理技術，解釋駕駛指令、上下文提示以及潛在的對話輸入（未來發展方向）。

動作與決策制定（Action and Decision-Making）： 利用融合後的感官資訊和語言資訊，安全地規劃、選擇並執行任務，同時輸出可供查核的解釋性推理痕跡。

輝達強調，Alpamayo 1 模型本身並非直接設計為運行在車輛的車載電腦中，而是作為一個大規模的「教師模型」（Teacher Model）。開發者可以利用這個強大的基礎模型進行微調（Fine-tuning），並將其精華萃取融入到他們各自的自動駕駛技術堆疊骨幹中，以應對各種現實世界中的挑戰。

輝達也預告，Alpamayo 家族的未來模型將擁有更大的參數規模、更精細的推理細節、更強大的輸入輸出彈性，並將開放商業使用選項。

完整開放生態系 加速全球 L4 級自駕技術部署

輝達此次推出的 Alpamayo 平臺，不僅是一個單一模型，更是一個由開源模型、模擬框架和大規模資料集共同構築的完整開放生態系統。這一開放式架構旨在鼓勵全球汽車開發者和研究團隊共同參與，加速推進安全且可靠的 L4 級自動駕駛技術。

除了 Alpamayo 1 推理模型外，輝達同時釋出了名為「AlpaSim」的端對端模擬框架，並已於 GitHub 平臺上開源。AlpaSim 是專為高傳真（High-fidelity）自動駕駛開發所設計。它提供了極為真實的感測器建模能力、可自由配置的交通動態，以及一個可擴展的「閉環測試環境」（Closed-loop testing environment）。這使得開發者能夠在虛擬世界中進行快速的策略驗證和最佳化，大幅縮短了實際道路測試的時間與成本。

全球最大規模開放資料集支援

為餵養並訓練出更具通用性和強大推理能力的人工智慧，輝達還提供了目前自動駕駛領域最多元化、最大規模的開放資料集之一。

這些數據集包含了超過 1,700 小時的實際駕駛資料，涵蓋了最廣泛的地理位置和駕駛條件，特別收錄了大量複雜、罕見的真實世界「邊緣案例」（edge cases）。這些珍貴的資料對於推進像 Alpamayo 這樣的推理架構而言，是至關重要的養分，現已可在 Hugging Face 平臺上取得。

Alpamayo 平台的這些工具，共同創造了一個「自我強化的開發循環」（Self-reinforcing development cycle）。開發者可以利用這些資源，在他們專有的車隊資料上對模型進行微調。

跨產業 AI 佈局 輝達全面開放模型家族

輝達在本次 CES 上展示的開源決心，並不僅限於自動駕駛領域。輝達 5 日同時發布了涵蓋多個重要產業方向的全新開源模型、資料集和開發工具，以全面推動各行各業的人工智慧發展進程。

這些模型家族包括專用於代理式 AI（Agent AI）的輝達 Nemotron 家族、專為實體 AI 打造的輝達 Cosmos 平臺、適用於機器人的輝達 Isaac GR00T，以及聚焦生物醫學領域的輝達 Clara。

輝達提供的開源資源亦包括了訓練框架、以及全球最大的開放多模態資料集合之一，具體資料規模令人震驚：涵蓋了 10 兆語言訓練標記、50 萬個機器人軌跡、45.5 萬個蛋白質結構，以及前面提到的 100 TB 車輛感測器資料。

在代理式 AI 基礎模型方面，Nemotron 家族新增了與語音、多模態檢索增強生成（RAG）和安全相關的新模型。

Nemotron Speech： 包含業界領先的開源模型，專為即時字幕和語音 AI 應用提供即時、低延遲的語音辨識服務。

Nemotron RAG： 包含了全新的嵌入（embedding）模型和重排序視覺語言模型，能為開發者提供高度準確的多語言與多模態資料洞察能力。

在實體 AI 和機器人學領域，輝達的佈局顯得雄心勃勃：

Cosmos 開放世界基礎模型： 該平臺為加速實體 AI 的開發和驗證帶來了「類人推理」和「世界生成」的能力，讓機器能夠更好地理解複雜環境並進行互動。

Isaac GR00T N1.6： 這是一個專門為人形機器人設計的開放推理型 VLA 模型，旨在實現複雜的全身控制，並結合輝達 Cosmos Reason 功能，以達到更優異的推理和上下文理解能力。