menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon

美股

歐洲AI獨角獸發表「世界最強文檔解析API」

鉅亨網編輯林羿君 綜合報導 2025-03-07 16:00

cover image of news article
歐洲AI獨角獸發表「世界最強文檔解析API」。(圖:shutterstock)

法國 AI 獨角獸 Mistral AI 插旗光學字元辨識 (OCR) 領域,發表號稱「全世界最佳文件理解 API」:Mistral OCR。

Mistral OCR 能夠全面理解文件的每個元素,包括媒體、文字、表格、公式等,並展現出前所未有的準確性和認知能力。它支援圖像和 PDF 作為輸入,並能從中提取有序的、交錯的文字和圖像內容。 因此,Mistral OCR,可以與以多模式文件(如投影片或複雜 PDF)作為輸入的 RAG 系統結合使用。


Mistral OCR 具備以下六大亮點功能:

  1. 頂尖的複雜文件理解能力:擅長理解複雜的文檔元素,包括交錯的圖像、數學表達式、表格以及 LaTeX 等高級排版格式。這使得模型能夠更深入地理解富文檔,例如包含圖表、圖形、公式和圖像的科學論文。
  2. 原生多語言和多模態支援:具備多語言和多模態處理能力,能夠處理多種語言和不同類型的內容。
  3. 頂級的基準測試表現:在多項基準測試中都取得了領先地位,展現了其卓越的性能
  4. 同類產品中最快速度:輕量化設計使其速度遠超同類模型,單節點每分鐘可處理高達 2000 頁的文件。快速的處理能力確保了即使在高吞吐量環境下也能持續學習和改進。
  5. 「文件即提示」的結構化輸出:創新地引入了「文件即提示」的概念,使用者可以使用文件作為提示,實現更強大、更精確的指令。它允許用戶從文件中提取特定訊息,並將其格式化為 JSON 等結構化輸出。使用者可以將這些結構化輸出串聯到下游函數呼叫和建置代理程式中。
  6. 選擇性提供自託管部署:對於有嚴格資料隱私要求的組織,Mistral OCR 提供自託管選項。這確保了敏感或機密資訊在您自身的基礎設施內保持安全,符合監管和安全標準。

Mistral OCR 與其他主流 OCR 產品的效能對比,包括 Google Document AI、Azure OCR、Gemini 系列模型以及 GPT-4o。在整體準確率、數學公式辨識、多語言處理等方面,Mistral OCR 均表現出色,尤其在 Mistral OCR 2503 版本中,各項指標都達到了新的高度

Mistral OCR 功能已開放在 Le Chat 上免費試用。Mistral AI 已經將它作為 le Chat 上數百萬用戶的預設文件理解模型,並以 1000 頁 / 1 美元的價格發布了 API「mistral-ocr-latest」。

文章標籤


Empty