美股

輝達推出最強多模態AI模型效率飆升最高900%

鉅亨網新聞中心2026-04-29 10:00

輝達 (NVDA-US)4 月 28 日重磅推出 Nemotron 3 Nano Omni 開源全能多模態大模型。此頂尖 AI 多模態模型，採用 30B-A3B MoE 混合專家架構，整合視覺、語音、文字多維能力於一體。幫助 AI 智能體依托視訊、音訊、影像、文字全維度資訊進行深度推理，輸出更快、更智慧的互動應答，為企業與開發者提供可落地的工程化方案。

cover image of news article — 輝達推出最強多模態AI模型，效率飆升最高900%(圖：Shutterstock)

同時，該模型顯著提升了大規模推理效率。它不僅效率高，而且擁有強大的多模態感知精度，使 AI 系統的吞吐量比其他具有相同互動性的開放式全向模型高出 900%。最終實現了更低的成本和更好的可擴展性，同時又不犧牲響應速度或品質。

‌

輝達表示，新模型在 MMlongbench-Doc 和 OCRBenchV2 等文件智慧排行榜上提供了一流的準確性，同時在視訊和音訊理解方面也處於領先地位，在 WorldSense、DailyOmni 和 VoiceBench 等排行榜上名列前茅。

除了準確率之外，MediaPerf（一個開放的行業基準測試，它使用真實媒體數據和製作任務，從質量、成本和吞吐量等方面評估視頻理解模型）顯示，Nemotron 3 Nano Omni 在所有任務中都實現了最高的吞吐量，並且在視頻級標註方面推理成本最低。

值得一提的是，另一家矽谷 AI 巨頭依然發布重要消息。針對市場有關銷售成長放緩及未達內部目標的擔憂，OpenAI 週二公開回應稱，公司消費端與企業業務正「全速運轉」，需求持續增長，並淡化相關負面報導影響。

OpenAI 在聲明中表示，來自企業客戶的需求及其尚處於起步階段的廣告業務仍在持續成長。「公司內部氛圍非常積極，」該公司在一份聲明中稱。

《華爾街日報》週一晚間報導，隨著競爭對手不斷取得進展，OpenAI 已未能實現多個內部目標。OpenAI 將該報導形容為「典型的標題黨」。

Nemotron 3 Nano Omni 架構將多模態感知和推理整合到一個 30B 混合 MoE 模型中，原生支援文字、圖像、視訊和音訊輸入，同時在代理循環中保持統一的多模態上下文，無需單獨的視覺、語音和語言模型。

本產品採用融合 Mamba 層與 Transformer 層結構，分別強化序列記憶體效率與推理精準度，大幅提升模型吞吐量，記憶體與運算效率最高可提升 4 倍，適配各類子智能體應用場景。

在視訊處理層面，Nemotron 3 Nano Omni 依賴 3D 卷積捕捉畫面幀間運動特徵，並透過高效視訊採樣層壓縮多幀高密度視覺標識，保障大模型在上下文限制內順暢完成視訊內容解析。

多模態體係以成熟文字模型作為核心解碼器，保留原生語言能力的同時建構跨模態適配橋樑，有效降低多模態訓練的難度、成本與不穩定性，強化連續知覺任務的綜合表現。

音訊能力依托輝達 Parakeet 編碼器及客製化專業資料集搭建，結合 Granary、Music Flamingo 等技術實現超越基礎語音轉錄的多元化音訊理解能力。

視覺模組搭載 C-RADIOv4-H 編碼器與影片摘要技術，透過分層壓縮策略因應高畫質影像與動態影像處理需求，精準保留畫面細節並確保 OCR 辨識精準度。

該模型基於海量跨模態資料與指令調優完成訓練，面向真實智能體場景打造，可獨立處理圖文音視頻多類型指令，充當大型智能體系統的多模態感知子模組，全流程由輝達 NeMo Evaluator 庫完成性能評測。

依託文件、截圖、影音等多元大規模資料進行轉接器與編碼器訓練，讓模型在複雜企業級知覺任務中具備出色泛化能力。

輝達透過 Nemotron 3 Nano 和 Nemotron 3 Super 發布了業界最全面的基於文字的智慧 AI 開放資料集，其中包括：10T + 預訓練標記、4000 + 訓練後樣本、20 多個 RL 環境配置和完整的訓練方案，所有這些都是公開可用的。

透過輝達 Megatron-LM 落地多階段監督微調管線，循序漸進拓展模態適配範圍，逐步將情境長度從 16K 提升至 262K，築牢跨模態指令跟隨基礎。

模型層面約 1270 億個標記，涵蓋文字 + 圖像、文字 + 視訊、文字 + 音訊和文字 + 視訊 + 音訊等混合模態，反映真實世界的上下文交互。

針對真實世界任務的訓練後訓練：約 1.24 億個精心挑選的多模態組合範例，支援文件推理、電腦操作和長期工作流程。

模型在監督微調後進行多環境強化學習，涵蓋 25 種環境配置，依托輝達 NeMo 系列工具完成超 230 萬次環境部署，持續增強多模態任務與智能體工作流程的穩定性。

輝達也提供使用 NVIDIA NeMo Data Designer 建構的合成資料產生（SDG）管線，用於對 Nemotron 3 Nano Omni 進行後訓練，使其能勝任複雜長文件理解任務。

透過迭代開發與訓練，最終整合約 1,140 萬個合成視覺問答對（約 450 億 tokens）進入訓練資料集。

圖像訓練資料已公開，開發者可檢查、調整與擴展多模態訓練流程。

對於過去需維護視覺、語音與文件資料棧的企業而言，Omni 將其整合為單一可用於生產環境的基礎架構，大幅降低部署門檻。

已採用該模型的企業包括 Aible、Applied Scientific Intelligence（ASI）、Eka Care、富士康、H Company、Palantir、Pyler；戴爾科技、DocuSign、Infosys、Oracle 等仍在評估。

H Company 執行長 Gautier Cloix 表示：「要建立實用的智能體，不能讓模型花費數秒時間解讀畫面。基於 Nemotron 3 Nano Omni，我們的智能體可即時解析全高清螢幕錄影，這不只是速度提升，而是根本性的能力改變。」

OpenAI：商業化沒放緩

此前，《華爾街日報》報導稱，隨著競爭加劇，OpenAI 未達部分內部成長目標。報導指出，財務長 Sarah Friar 擔憂，若成長不足，公司恐難支撐持續攀升的算力需求。市場開始質疑 OpenAI 及其他科技公司投入數千億美元建設資料中心與晶片的回報。

受此影響，相關概念股下跌，甲骨文 (ORCL-US) 跌逾 4%，CoreWeave(CRWV-US) 跌逾 5.7%。

股價波動凸顯 OpenAI 在 AI 產業鏈中的核心角色。對此，OpenAI 表示，公司仍將算力擴張視為「關鍵推動因素」，認為其有助於長期競爭力。同時，公司已開始採取更審慎的投資策略，包括暫停英國項目，以及與微軟 (MSFT-US) 調整資料中心合作。

市場人士認為，這顯示 OpenAI 正尋求在擴張與資本約束間取得平衡。Wedbush 分析師指出，市場對 OpenAI 的擔憂屬於「過度反應」，並強調其需求仍強勁。

此外，微軟與 OpenAI 近期也修訂合作協議，明確收入分成至 2030 年並取消 AGI 觸發條款，強化長期合作穩定性。雙方並將持續推進新一代晶片、資料中心與資安應用等領域合作。

‌

文章標籤

輝達 AI Nemotron nano openai

延伸閱讀

鉅亨講座

看更多

講座
公告

上一篇
阿聯退出OPEC下一步怎麼走？增產仍須謹慎
下一篇
美股重點新聞摘要2026年4月29日

輝達推出最強多模態AI模型 效率飆升最高900%

文章標籤

相關行情

延伸閱讀

鉅亨講座

‌

‌

‌

‌

輝達推出最強多模態AI模型效率飆升最高900%