誰卡了英偉達的脖子？

英偉達（Nvidia）最新季度財報公佈後，不僅AMD沉默英特爾流淚，做過長時間心理建設的分析師也沒想到真實情況如此超預期。

本文原載於微信公眾號遠川科技評論。作者為何律衡

更可怕的是，英偉達同比暴漲854%的收入，很大程度上是因為「只能賣這麼多」，而不是「賣出去了這麼多」。一大堆「初創公司拿H100抵押貸款」的小作文背後，反映的是H100 GPU供應緊張的事實。

如果缺貨繼續延續到今年年底，英偉達的業績恐怕會更加震撼。

H100的短缺不禁讓人想起幾年前，GPU因為加密貨幣暴漲導致缺貨，英偉達被遊戲玩家罵得狗血淋頭。不過當年的顯卡缺貨很大程度上是因為不合理的溢價，H100的缺貨卻是產能實在有限，加價也買不到。

換句話說，英偉達還是賺少了。

黃仁勳領導的英偉達，現時面對H100缺貨的難題。(Reuters)

在財報發佈當天的電話會議上，「產能」理所當然地成為了最高頻詞彙。對此，英偉達措辭嚴謹，不該背的鍋堅決不背：

「市場份額方面，不是僅靠我們就可以獲得的，這需要跨越許多不同的供應商。」

實際上，英偉達所說的「許多不同的供應商」，算來算去也就兩家：

SK海力士和台積電。

普京再集權（一）：馴服瓦格納　就是阻止「後普京時代」到來雷蒙多訪華：兩種對華鷹派的爭奪

HBM：韓國人的遊戲

如果只看面積佔比，一顆H100晶片，屬於英偉達的部分只有50%左右。

在晶片剖面圖中，H100裸片佔據核心位置，兩邊各有三個HBM堆疊，加起來面積與H100裸片相當。

這六顆平平無奇的記憶體晶片，就是H100供應短缺的罪魁禍首之一。

HBM（High Bandwidth Memory）直譯過來叫高寬頻記憶體，在GPU中承擔一部分記憶體之職。

和傳統的DDR記憶體不同，HBM本質上是將多個DRAM記憶體在垂直方向堆疊，這樣既增加了記憶體容量，又能很好地控制記憶體的功耗和晶片面積，減少在封裝內部佔用的空間。

「堆疊式記憶體」原本瞄準的是對晶片面積和發熱非常敏感的智慧手機市場，但問題是，由於生產成本太高，智慧手機最終選擇了性價比更高的LPDDR路線，導致堆疊式記憶體空有技術儲備，卻找不到落地場景。

直到2015年，市場份額節節敗退的AMD希望借助4K遊戲的普及，抄一波英偉達的後路。

在當年發佈的AMD Fiji系列GPU中，AMD採用了與SK海力士聯合研發的堆疊式記憶體，並將其命名為HBM（High Bandwidth Memory）。

AMD的設想是，4K遊戲需要更大的資料吞吐效率，HBM記憶體高頻寬的優勢就能體現出來。當時AMD的Radeon R9 Fury X顯卡，也的確在紙面性能上壓了英偉達Kepler架構新品一頭。

但問題是，HBM帶來的頻寬提升，顯然難以抵消其本身的高成本，因此也未得到普及。

直到2016年，AlphaGo橫掃冠軍棋手李世石，深度學習橫空出世，讓HBM記憶體一下有了用武之地。

圖為NVIDIA H100 Tensor 核心 GPU。(NVIDIA)

深度學習的核心在於通過海量資料訓練模型，確定函數中的參數，在決策中帶入實際資料得到最終的解。

理論上來說，資料量越大得到的函數參數越可靠，這就讓AI訓練對資料輸送量及資料傳輸的延遲性有了一種近乎病態的追求，而這恰恰是HBM記憶體解決的問題。

2017年，AlphaGo再戰柯潔，晶片換成了Google自家研發的TPU。在晶片設計上，從第二代開始的每一代TPU，都採用了HBM的設計。英偉達針對資料中心和深度學習的新款GPU Tesla P100，搭載了第二代HBM記憶體（HBM2）。

隨着高性能計算市場的GPU晶片幾乎都配備了HBM記憶體，存儲巨頭們圍繞HBM的競爭也迅速展開。

目前，全球能夠量產HBM的僅有記憶體三大巨頭：SK海力士、三星電子、美光。

SK海力士是HBM發明者之一，是目前唯一量產HBM3E（第三代HBM）的廠商；三星電子以HBM2（第二代HBM）入局，是英偉達首款採用HBM的GPU的供應商；美光最落後，2018年才從HMC轉向HBM路線，2020年年中才開始量產HBM2。

其中，SK海力士獨佔HBM 50%市場份額，而其獨家供應給英偉達的HBM3E，更是牢牢卡住了H100的出貨量：

H100 PCIe和SXM版本均用了5個HBM堆疊，H100S SXM版本可達到6個，英偉達力推的H100 NVL版本更是達到了12個。按照研究機構的拆解，單顆16GB的HBM堆疊，成本就高達240美元。那麼H100 NVL單單記憶體晶片的成本，就將近3000美元。

成本還是小問題，考慮到與H100直接競爭的谷歌TPU v5和AMD MI300即將量產，後兩者同樣將採用HBM3E，產能更加捉襟見肘。

面對激增的需求，據說SK海力士已定下產能翻番的小目標，著手擴建產線，三星和美光也對HBM3E摩拳擦掌，但在半導體產業，擴建產線從來不是一蹴而就的。

按照9~12個月的週期樂觀預計，HBM3E產能至少也得到明年第二季度才能得到補充。

另外，就算解決了HBM的產能，H100能供應多少，還得看台積電的臉色。

「越南特斯拉」Vinfast市值破萬億背後中國不再是美國第一大進口國　世界工廠地位未動搖｜專家有話說

H100能供應多少，最終得看台積電的臉色？(Reuters)

CoWoS：台積電的寶刀

分析師Robert Castellano不久前做了一個測算，H100採用了台積電4N工藝（5nm）生產，一片4N工藝的12寸晶圓價格為13400美元，理論上可以切割86顆H100晶片。

如果不考慮生產良率，那麼每生產一顆H100，台積電就能獲得155美元的收入[6]。

但實際上，每顆H100給台積電帶來的收入很可能超過1000美元，原因就在於H100採用了台積電的CoWoS封裝技術，通過封裝帶來的收入高達723美元[6]。

每一顆H100從台積電十八廠的N4/N5產線上下來，都會運往同在園區內的台積電先進封測二廠，完成H100製造中最為特別、也至關重要的一步——CoWoS。

要理解CoWoS封裝的重要性，依然要從H100的晶片設計講起。

在消費級GPU產品中，記憶體晶片一般都封裝在GPU核心的週邊，通過PCB板之間的電路傳遞信號。

比如下圖中同屬英偉達出品的RTX4090晶片，GPU核心和GDDR記憶體都是分開封裝再拼到一塊PCB板上，彼此獨立。

GPU和CPU都遵循著馮·諾依曼架構，其核心在於「存算分離」——即晶片處理資料時，需要從外部的記憶體中調取資料，計算完成後再傳輸到記憶體中，一來一回，都會造成計算的延遲。同時，資料傳輸的「數量」也會因此受限制。

可以將GPU和記憶體的關係比作上海的浦東和浦西，兩地間的物資（資料）運輸需要依賴南浦大橋，南浦大橋的運載量決定了物資運輸的效率，這個運載量就是記憶體頻寬，它決定了資料傳輸的速度，也間接影響著GPU的計算速度。

1980年到2000年，GPU和記憶體的「速度失配」以每年50%的速率增加。也就是說，就算修了龍耀路隧道和上中路隧道，也無法滿足浦東浦西兩地物資運輸的增長，這就導致高性能計算場景下，頻寬成為了越來越明顯的瓶頸。

2015年，AMD在應用HBM記憶體的同時，也針對資料傳輸採用了一種創新的解決方案：把浦東和浦西拼起來。

簡單來說，2015年的Fiji架構顯卡，將HBM記憶體和GPU核心「縫合」在了一起，把幾塊小晶片變成了一整塊大晶片。這樣，資料吞吐效率就成倍提高。

不過如上文所述，由於成本和技術問題，AMD的Fiji架構並沒有讓市場買帳。但深度學習的爆發以及AI訓練對資料吞吐效率不計成本的追求，讓「晶片縫合」有了用武之地。

另外，AMD的思路固然好，但也帶來了一個新問題——無論HBM有多少優勢，它都必須和「縫晶片」的先進封裝技術配合，兩者唇齒相依。

如果說HBM記憶體還能貨比三家，那麼「縫晶片」所用的先進封裝，看來看去就只有台積電一家能做。

CoWoS是台積電先進封裝事業的起點，英偉達則是第一個採用這一技術的晶片公司。

CoWoS由CoW和oS組合而來：CoW表示Chip on Wafer，指裸片在晶圓上被拼裝的過程，oS表示on Substrate，指在基板上被封裝的過程。

英偉達力推的H100 NVL版本更是達到了12個HBM堆疊。(Reuters)

傳統封裝一般只有oS環節，一般在代工廠完成晶圓製造後，交給協力廠商封測廠解決，但先進封裝增加的CoW環節，就不是封測廠能解決的了的。

以一顆完整的H100晶片為例，H100的裸片周圍分佈了多個HBM堆疊，通過CoW技術拼接在一起。但不只是拼接而已，還要同時實現裸片和堆疊間的通信。

台積電的CoW區別於其他先進封裝的亮點在於，是將裸片和堆疊放在一個矽仲介層（本質是一塊晶圓）上，在仲介層中做互聯通道，實現裸片和堆疊的通信。

類似的還有英特爾的EMIB，區別在於通過矽橋實現互聯。但頻寬遠不及矽仲介層，考慮到頻寬與資料傳輸速率息息相關，CoWoS便成了H100的唯一選擇。

這便是卡住H100產能的另一隻手。

雖然CoWoS效果逆天，但4000~6000美元/片的天價還是攔住了不少人，其中就包括富可敵國的蘋果。因此，台積電預備的產能相當有限。

然而，AI浪潮突然爆發，供需平衡瞬間被打破。

早在6月就有傳言稱，今年英偉達對CoWoS的需求已經達到4.5萬片晶圓，而台積電年初的預估是3萬片，再加上其他客戶的需求，產能缺口超過了20%。

為了彌補缺口，台積電的陣仗不可謂不大。

6月，台積電正式啟用同在南科的先進封測六廠，光無塵室就比其餘封測廠的加起來還大，並承諾逐季增加CoWoS產能，為此將部分oS外包給協力廠商封測廠。

但正如HBM擴產不易，台積電擴產也需要時間。目前，部分封裝設備、零元件交期在3~6個月不等，到年底前，新產能能開出多少仍是未知。

BRICS｜金磚國家擴容反映世界多極化　國際影響力將有多大待觀察中美之間正在出現「陰乾」式脱鈎

面對H100的結構性緊缺，英偉達並非完全沒有Plan B。(Reuters)

不存在的Plan B

面對H100的結構性緊缺，英偉達也不是完全沒有Plan B。

在財報發佈後的電話會議上，英偉達就透露，CoWoS產能已經有其他供應商參與認證。雖然沒說具體是誰，但考慮到先進封裝的技術門檻，除了台積電，也就只有英特爾先天不足的EMIB、三星開發了很久一直等不來客戶的I-Cube能勉強救火。

但核心技術更換如同陣前換將，隨著AMD MI300即將量產出貨，AI晶片競爭白熱化，是否能和英特爾和三星的技術磨合到位，恐怕黃仁勳自己心裡也是惴惴。

比黃仁勳更著急的可能是買不到H100的雲服務廠商與AI初創公司。畢竟遊戲玩家搶不到顯卡，也就是遊戲幀數少了20幀；大公司搶不到H100，很可能就丟掉了幾十億的收入和上百億的估值。

需要H100的公司主要有三類：微軟、亞馬遜這類雲服務商；Anthropic、OpenAI這些初創公司；以及特斯拉這類大型科技公司，特斯拉的新版本FSD方案就用了10000塊H100組成的GPU集群來訓練。

這還沒算上Citadel這類金融公司，以及買不到特供版H800的中國公司。

根據GPU Utils的測算[7]，保守估計，目前H100的供給缺口達到43萬張。

雖然H100存在理論上的替代方案，但在實際情況下都缺乏可行性。

比如H100的前代產品A100，價格只有H100的1/3左右。但問題是，H100的性能比A100強了太多，導致H100單位成本的算力比A100高。考慮到科技公司都是成百上千張起購，買A100反而更虧。

AMD是另一個替代方案，而且紙面性能和H100相差無幾。但由於英偉達CUDA生態的壁壘，採用AMD的GPU很可能讓開發週期變得更長，而採用H100的競爭對手很可能就因為這點時間差，和自己拉開了差距，甚至上億美元的投資血本無歸。

種種原因導致，一顆整體物料成本3000美元的晶片，英偉達直接加個零賣，大家居然都搶著買。這可能是黃仁勳自己也沒想到的。

而在HBM與CoWoS產能改善之前，買到H100的方法可能就只剩下了一種：

等那些靠吹牛X融到錢買了一堆H100的初創公司破產，然後接盤他們的二手GPU。

參考資料

[1] AI Capacity Constraints - CoWoS and HBM Supply Chain，SemiAnalysis

[2] 原廠積極擴產，預估2024年HBM位元供給年成長率105%，TrendForce

[3] HBM技術會給資料中心帶來怎樣的變化？半導體產業縱橫

[4] 先進封裝第二部分：英特爾、台積電、三星、AMD、日月光、索尼、美光、SKHynix、YMTC、特斯拉和英偉達的選項/使用回顧，Semianalysis

[5] OpenAI聯合創始人兼職科學家Andrej Karpathy推文

[6] Taiwan Semiconductor: Significantly Undervalued As Chip And Package Supplier To Nvidia，SeekingAlpha

[7] Nvidia H100 GPUs: Supply and Demand，GPU Utils

AI霸主英偉達財報揭曉，下半年AI熱潮能否持續？NVIDIA｜英偉達CFO再警告：限制晶片輸華將損害美國公司利益 Nvidia｜人工智能需求帶動　英偉達料第3季銷售額按年漲170％阿里及騰訊等內地科企　據報訂購英偉達晶片　總值50億美元

誰卡了英偉達的脖子？｜專家有話說