雜誌

AI股後市看輝達臉色

理財周刊2023-08-11 07:33

‌

文 ‧ 洪寶山

‌

以前提到英特爾就直接聯想到 PC，講到亞馬遜就代表互聯網的電商，蘋果就代表智慧型手機，現在輝達已經成為 AI 的代名詞了，如今全球約有三千家的 AI 新創公司都採用輝達的 CUDA 平台，就如同微軟的 Windows、蘋果的 iOS 系統一樣，從底層軟體出發，讓平台長出一個龐大的軟體生態，讓競爭對手難以超越。

輝達 2006 年開發的 CUDA 是一套輝達提供軟體工程師的編程工具，運用 CUDA 省下大量撰寫低階語法的時間，能直接使用高階語法諸如 C++ 或 Java 等來編寫應用於通用 GPU 上的演算法，解決平行運算中複雜的問題。

輝達將數十年所有創新融合建立 CUDA 平台護城河

輝達將於 8 月 23 日公布財報，從股價表現來看，市場傾向樂觀，畢竟輝達將過去數十年的所有創新，比如人工智慧、虛擬世界、加速、類比、協作等等，一舉融合到一起所建立的護城河，短期難有對手得以突破。

輝達在 2018 年意識到光柵化 (傳統 3D 場景渲染方法) 已經達到極限，那年輝達做了重大決策，選擇以光線追蹤和智慧升級的形式實現人工智慧驅動的影像處理：分別是 RTX 和 DLSS 技術，重新開發硬體、軟體和演算法，利用 AI 重塑 CG(Computer Graphics，電腦圖形學)，重塑 GPU。

生成式 AI 時代等於 GPU 時代而輝達就等於 GPU

事實證明，GPU 適合應用在機器學習，於是當 LLM 大語言模型成為人工智慧主流後，傳統資料中心並不能提供大型生成式 AI 模型訓練所需要的大量資料，但像輝達 H100 這樣從一開始就設計用於大規模執行必要操作的系統能夠做到，所以進入生成式 AI 時代就等於進入 GPU 時代，而輝達就等於 GPU。

台北時間 8 月 8 日 23 點黃仁勳在美國洛杉磯舉辦的 SIGGRAPH 年中大會上宣布，新一代 GH200 超級晶片平台，將從 2024 年第二季開始供貨，結果輝達的股價在 23:33 的 450.5 美元盤中高點跌到 23:50 的 440.89 美元低點，利多出盡嗎？

最終輝達收在 446.64 美元，也算收在盤中相對高點，不是利多出盡，而是失望性賣壓湧出，不是對 GH200 的效能失望，而是原先五月底在台北電腦展首次發表 GH200 時，提到的供貨時間是今年底，結果短短 71 天，GH200 的供貨時間推遲了半年，可以理解失望性賣壓的股民想法，在半導體持續去庫存的環境裡，還要多等半年才供貨，原因只有一個，就是 CoWoS 先進封裝的產能不足。

照理，CoWoS 概念股應該大漲才對，結果 8 月 9 日的弘塑跌停板，辛耘跌 - 6.42%、萬潤跌 - 5.51%，原來輝達為了加速搶佔市場，新一代 L40 系列的 L40S GPU 的 OVX 伺服器採用 NVIDIA Ada Lovelace 架構，將不會採用 HBM3，而是採用 GDDR6 記憶體，意思是將不必採用 CoWoS 先進封裝製程，市場受到驚嚇，在情緒的引導下，自然先賣先贏。

高算力 GPU 還是要依賴 CoWoS 台積電急設廠擴增 CoWoS 產能

相信過陣子市場冷靜下來，就會發現，GPU 的市場很大，高算力的 GPU 還是要依賴 CoWoS，如果不是這樣，台積電怎麼會緊急在銅鑼設廠增加 CoWoS 產能。

L40S GPU 是專為搭建資料中心而設計的，配備 48GB 的 GDDR6 顯存和 846GB/s 的頻寬，在第四代 Tensor 核心和 FP8 Transformer 引擎的加持下，可以提供超過 1.45 petaflops 的張量處理能力。為了支援如實時渲染、產品設計和 3D 內容創建等專業視覺處理工作，L40S 還配備了 142 個第三代 RT 核心，可以提供 212 teraflops 的光線追蹤性能。

對於具有數十億參數和多種模態的生成式 AI 工作負載，L40S 相較於 A100 可實現高達 1.2 倍的推理性能提升，以及高達 1.7 倍的訓練性能提升。這樣講對一般人來說可能沒有感覺，換個角度來比較，對於 Stable Diffusion XL 模型，L40S OVX 伺服器可以每分鐘生成八十張的圖像；對於擁有 8.6 億 token 的 GPT3-40B 模型，L40S OVX 伺服器只需七個小時就能完成微調。輝達針對資料中心市場推出最多可搭載八張 L40S 的 OVX 伺服器，業界推測輝達將會推出 L40S 的中國特規版，效能略低於 A800 晶片，以滿足中國雲計算企業的需求。

全球 AI 基礎設施資本支出未來六年複合年成長率達 44%

針對市場質疑的 AI 泡沫論，黃仁勳表示，未來 LLM 處於幾乎所有事物的前沿，現在的 AI 晶片搶購熱潮僅是開始，AI 新模型不僅需要接受訓練，還需要由數百萬甚至數十億用戶定期即時運行。從 ChatGPT 3 升級到 ChatGPT 4 所需的 GPU 就增加了十倍，而 GH200 是由 256 個 GPU 組成，更是為了 ChatGPT 5 準備。

未來 12 到 24 個月內可能會出現資料中心的容量出現短缺，研究公司 Data Bridge Market Research 資料顯示，到 2029 年，全球人工智慧基礎設施市場的資本支出預計將達到 4225.5 億美元，未來六年的複合年成長率將達到 44%。

來源：《理財周刊》1198 期

更多精彩內容請至《理財周刊》