經濟通新聞
《經濟通通訊社20日專訊》DeepSeek-AI團隊今日上午發布並開源新模型DeepSeek-OCR。團隊發布論文《DeepSeek-OCR:Contexts Optical Compression》,提出利用視覺模態壓縮長文本上下文的新方法,即是把長長的上下文渲染成一張圖片再餵給模型,讓原本需要數千上萬個文本token的上下文,只需幾百個視覺token就能表示,實現信息的高效壓縮。
據《IT之家》報道,DeepSeek-OCR由兩個部分組成:核心編碼器DeepEncoder和解碼器DeepSeek3B-MoE-A570M。
DeepEncoder專為在高分辨率輸入下保持低計算激活而設計,同時實現高壓縮比,以控制視覺token數量在可管理的範圍內。
實驗顯示,當文本token數量不超過視覺token的10倍(壓縮比低於10x)時,模型的OCR(文字識別)精度可達97%;即便壓縮比提高到20x,準確率仍保持約60%,展現出在歷史文檔長上下文壓縮和大語言模型記憶機制研究中的巨大潛力。
在OmniDocBench測試中,DeepSeek-OCR使用100個視覺token就超過了階躍星晨的GOT-OCR2.0(每頁256個token),而使用不
到800個視覺token便優於上海AI實驗室的MinerU2.0(平均每頁超過6000個token)。
在實際生產中,DeepSeek-OCR可在單塊A100-40G顯卡上每天生成超過20萬頁的大語言模型╱視覺語言模型訓練數據。(sl)
上一篇
下一篇