輝達推出最強多模態AI模型 效率飆升最高900%
鉅亨網新聞中心
輝達 (NVDA-US)4 月 28 日重磅推出 Nemotron 3 Nano Omni 開源全能多模態大模型。此頂尖 AI 多模態模型,採用 30B-A3B MoE 混合專家架構,整合視覺、語音、文字多維能力於一體。幫助 AI 智能體依托視訊、音訊、影像、文字全維度資訊進行深度推理,輸出更快、更智慧的互動應答,為企業與開發者提供可落地的工程化方案。

同時,該模型顯著提升了大規模推理效率。它不僅效率高,而且擁有強大的多模態感知精度,使 AI 系統的吞吐量比其他具有相同互動性的開放式全向模型高出 900%。最終實現了更低的成本和更好的可擴展性,同時又不犧牲響應速度或品質。
輝達表示,新模型在 MMlongbench-Doc 和 OCRBenchV2 等文件智慧排行榜上提供了一流的準確性,同時在視訊和音訊理解方面也處於領先地位,在 WorldSense、DailyOmni 和 VoiceBench 等排行榜上名列前茅。
除了準確率之外,MediaPerf(一個開放的行業基準測試,它使用真實媒體數據和製作任務,從質量、成本和吞吐量等方面評估視頻理解模型)顯示,Nemotron 3 Nano Omni 在所有任務中都實現了最高的吞吐量,並且在視頻級標註方面推理成本最低。
值得一提的是,另一家矽谷 AI 巨頭依然發布重要消息。針對市場有關銷售成長放緩及未達內部目標的擔憂,OpenAI 週二公開回應稱,公司消費端與企業業務正「全速運轉」,需求持續增長,並淡化相關負面報導影響。
OpenAI 在聲明中表示,來自企業客戶的需求及其尚處於起步階段的廣告業務仍在持續成長。「公司內部氛圍非常積極,」該公司在一份聲明中稱。
《華爾街日報》週一晚間報導,隨著競爭對手不斷取得進展,OpenAI 已未能實現多個內部目標。OpenAI 將該報導形容為「典型的標題黨」。
Nemotron 3 Nano Omni 架構將多模態感知和推理整合到一個 30B 混合 MoE 模型中,原生支援文字、圖像、視訊和音訊輸入,同時在代理循環中保持統一的多模態上下文,無需單獨的視覺、語音和語言模型。
本產品採用融合 Mamba 層與 Transformer 層結構,分別強化序列記憶體效率與推理精準度,大幅提升模型吞吐量,記憶體與運算效率最高可提升 4 倍,適配各類子智能體應用場景。
在視訊處理層面,Nemotron 3 Nano Omni 依賴 3D 卷積捕捉畫面幀間運動特徵,並透過高效視訊採樣層壓縮多幀高密度視覺標識,保障大模型在上下文限制內順暢完成視訊內容解析。
多模態體係以成熟文字模型作為核心解碼器,保留原生語言能力的同時建構跨模態適配橋樑,有效降低多模態訓練的難度、成本與不穩定性,強化連續知覺任務的綜合表現。
音訊能力依托輝達 Parakeet 編碼器及客製化專業資料集搭建,結合 Granary、Music Flamingo 等技術實現超越基礎語音轉錄的多元化音訊理解能力。
視覺模組搭載 C-RADIOv4-H 編碼器與影片摘要技術,透過分層壓縮策略因應高畫質影像與動態影像處理需求,精準保留畫面細節並確保 OCR 辨識精準度。
該模型基於海量跨模態資料與指令調優完成訓練,面向真實智能體場景打造,可獨立處理圖文音視頻多類型指令,充當大型智能體系統的多模態感知子模組,全流程由輝達 NeMo Evaluator 庫完成性能評測。
依託文件、截圖、影音等多元大規模資料進行轉接器與編碼器訓練,讓模型在複雜企業級知覺任務中具備出色泛化能力。
輝達透過 Nemotron 3 Nano 和 Nemotron 3 Super 發布了業界最全面的基於文字的智慧 AI 開放資料集,其中包括:10T + 預訓練標記、4000 + 訓練後樣本、20 多個 RL 環境配置和完整的訓練方案,所有這些都是公開可用的。
透過輝達 Megatron-LM 落地多階段監督微調管線,循序漸進拓展模態適配範圍,逐步將情境長度從 16K 提升至 262K,築牢跨模態指令跟隨基礎。
模型層面約 1270 億個標記,涵蓋文字 + 圖像、文字 + 視訊、文字 + 音訊和文字 + 視訊 + 音訊等混合模態,反映真實世界的上下文交互。
針對真實世界任務的訓練後訓練:約 1.24 億個精心挑選的多模態組合範例,支援文件推理、電腦操作和長期工作流程。
模型在監督微調後進行多環境強化學習,涵蓋 25 種環境配置,依托輝達 NeMo 系列工具完成超 230 萬次環境部署,持續增強多模態任務與智能體工作流程的穩定性。
輝達也提供使用 NVIDIA NeMo Data Designer 建構的合成資料產生(SDG)管線,用於對 Nemotron 3 Nano Omni 進行後訓練,使其能勝任複雜長文件理解任務。
透過迭代開發與訓練,最終整合約 1,140 萬個合成視覺問答對(約 450 億 tokens)進入訓練資料集。
圖像訓練資料已公開,開發者可檢查、調整與擴展多模態訓練流程。
對於過去需維護視覺、語音與文件資料棧的企業而言,Omni 將其整合為單一可用於生產環境的基礎架構,大幅降低部署門檻。
已採用該模型的企業包括 Aible、Applied Scientific Intelligence(ASI)、Eka Care、富士康、H Company、Palantir、Pyler;戴爾科技、DocuSign、Infosys、Oracle 等仍在評估。
H Company 執行長 Gautier Cloix 表示:「要建立實用的智能體,不能讓模型花費數秒時間解讀畫面。基於 Nemotron 3 Nano Omni,我們的智能體可即時解析全高清螢幕錄影,這不只是速度提升,而是根本性的能力改變。」
OpenAI:商業化沒放緩
此前,《華爾街日報》報導稱,隨著競爭加劇,OpenAI 未達部分內部成長目標。報導指出,財務長 Sarah Friar 擔憂,若成長不足,公司恐難支撐持續攀升的算力需求。市場開始質疑 OpenAI 及其他科技公司投入數千億美元建設資料中心與晶片的回報。
受此影響,相關概念股下跌,甲骨文 (ORCL-US) 跌逾 4%,CoreWeave(CRWV-US) 跌逾 5.7%。
股價波動凸顯 OpenAI 在 AI 產業鏈中的核心角色。對此,OpenAI 表示,公司仍將算力擴張視為「關鍵推動因素」,認為其有助於長期競爭力。同時,公司已開始採取更審慎的投資策略,包括暫停英國項目,以及與微軟 (MSFT-US) 調整資料中心合作。
市場人士認為,這顯示 OpenAI 正尋求在擴張與資本約束間取得平衡。Wedbush 分析師指出,市場對 OpenAI 的擔憂屬於「過度反應」,並強調其需求仍強勁。
此外,微軟與 OpenAI 近期也修訂合作協議,明確收入分成至 2030 年並取消 AGI 觸發條款,強化長期合作穩定性。雙方並將持續推進新一代晶片、資料中心與資安應用等領域合作。
延伸閱讀
- DeepSeek V4引爆華為昇騰950搶單潮!騰訊、阿里、字節跳動卡位 中國AI晶片突圍加速
- 亞馬遜重獲華爾街青睞 延續動能取決於這些關鍵
- OpenAI成長放緩引爆科技股拋售 甲骨文、CoreWeave領跌 AI概念股遭全面修正
- 雲端戰局再變!OpenAI不再獨綁微軟 轉向多雲策略 進軍AWS
- 講座
- 公告
上一篇
下一篇