DeepSeek開源第一彈 解鎖H800 帶飛GPU推理速度
鉅亨網新聞中心 2025-02-24 20:58

DeepSeek 周一 (24 日) 正式啟動「開源周」,首發程式碼庫 FlashMLA,立刻在業界引發了廣泛關注。社群媒體上,網友紛紛留言表示期待,稱讚 DeepSeek 是「真正的 OpenAI」。
FlashMLA 是什麼?
FlashMLA 是一個針對 Hopper GPU 優化的高效 MLA (Multi-Head Latent Attention) 解碼內核,專為處理可變長度序列而設計,目前已投入生產使用。
據多家科技媒體報導稱,透過優化 MLA 解碼和分頁 KV 緩存,FlashMLA 能夠提高 LLM (大型語言模型) 推理效率,尤其是在 H100/H800 這樣的高端 GPU 上,能發揮出極致性能。
DeepSeek 官方表示,FlashMLA 的靈感來自 FlashAttention 2&3 和 CUTLASS 項目。FlashMLA 支援 BF16 (Brain Float 16) 和分頁 KV 緩存,塊大小為 64。這些功能可最大限度地減少記憶體開銷並降低延遲,使 FlashMLA 成為即時 AI 應用程式的理想選擇。
在記憶體頻寬受限的配置中,FlashMLA 在 H800 SXM5 上運行 CUDA 12.6 時,可達到 3000 GB/s,在計算能力受限的配置中,可達到 580 TFLOPS。
簡單來說,FlashMLA 就像是為 AI 推理引擎裝上了一台「渦輪增壓器」,讓大型模型在處理複雜任務時更快、更省資源,同時降低了技術門檻。
MLA (多頭潛在注意力) 機制
在傳統的語言模型裡,有一種叫「多頭注意力 (MHA) 」的技術,它可以讓電腦更好地理解語言。不過,這種技術有個缺點,就是需要很大的記憶體來儲存資訊。MLA 的升級之處在於一種叫「低秩分解」的方法,它把儲存資訊的「倉庫」壓縮成一個小倉庫,但功能還是一樣好,不僅節省了空間,速度還更快了。
傳統解碼方法在處理不同長度的序列時,GPU 的並行計算能力會被浪費。FlashMLA 透過動態調度和記憶體優化,讓 Hopper GPU (如 H100) 的算力被充分利用,在相同硬體下吞吐量顯著提升。這意味著企業可以用更少的 GPU 伺服器完成同樣的任務,直接降低推理成本。
可變長度序列是現實場景中的常態 (如聊天對話、文檔生成),但傳統方法需要填充 (Padding) 到固定長度,導致計算冗餘。FlashMLA 支援動態處理變長輸入,讓 AI 應用 (如客服機器人、程式碼生成) 響應更快、更流暢,使用者體驗提升,加速商業化落地。
此前高效解碼內核多由科技巨頭閉源壟斷 (如 CUDA 優化庫),中小企業和研究者難以複現。FlashMLA 開源後,開發者可免費獲得「工業級優化方案」,降低技術門檻,促進更多創新應用 (如垂直領域小模型) 的誕生。小型 AI 公司或獨立開發者也能使用,更多人進入 AI 領域創業,自然也就有望催生更多的 AI 創業項目。
DeepSeek 的開源策略
DeepSeek 的開源策略,也促進了合乎道德的 AI 開發。FlashMLA 等工具,有助於創造公平的競爭環境,使小型團隊也能與大型企業競爭。
DeepSeek 在公告中稱自己是探索 AGI (通用人工智慧) 的小公司,作為開源社群的一部分,每分享一行程式碼,都會成為加速 AI 行業發展的集體動力。同時,DeepSeek 稱,沒有高不可攀的象牙塔,只有純粹的車庫文化 (不少美國著名企業從車庫裡誕生) 和社群驅動的創新。DeepSeek 的目標是透過開源,邀請全球開發者社群共同創新和建構。
DeepSeek 計畫在本周陸續開源五個程式碼庫。DeepSeek 表示,這些線上服務中的基礎構建模組已經過文件化、部署,並在生產環境中經過實戰檢驗。
- 掌握全球財經資訊點我下載APP
延伸閱讀
下一篇