DeepSeek因996成功?  矽谷「中國焦慮」論的虛實

撰文:藺思含
出版:更新:

上一篇專欄提到矽谷是如何掀起「996」風潮,在眾多理論當中,除了美國科技界自身對AI的狂熱,中國大模型DeepSeek加入賽局被認為是另一個重要推力。一時間,中英媒體圈都出現關於矽谷「中國焦慮」的敘事。

醫療AI企業創始人、前Meta僱員Sandesh告訴我,最早感受到「996」的壓力,是2024年1月DeepSeek R1語言模型(LLM)問世時。當時他還在Meta的AI部門工作,他稱,DeepSeek模型的發布在Meta內部引起了非常大的焦慮:

「坦白說,Meta 當時投入了巨大的資金在 AI 上.....上層管理人員產生了很多懷疑,給了我們很大壓力,要求我們做一些不同的事情。」

不止是Meta,DeepSeek在矽谷、華爾街乃至白宮都引起震動,在此之前,大家普遍相信美國在人工智能(AI)領域擁有不可動搖的霸主地位,但DeepSeek的模型在各項測試參數上都超過Meta當時的大語言模型Llama 3.1-405B,並與美國兩個AI巨頭——OpenAI的ChatGPT和Anthropic的Claude Monent並駕齊驅。

更重要的是,在美國晶片出口管制政策下,DeepSeek只能用更低的算力去打造模型按官方說法,該模型只使用約2048張H800的GPU訓練了2個月,總成本約為560萬美元。由此產生的「DeepSeek-V3」直接威脅到了這些人工智能巨頭的市場地位。

DeepSeek-V3推出後,Meta內部很快專門設立了四個專責部門分析DeepSeek的技術,其中兩個重點關注DeepSeek如何降低培訓成本,另外兩個則徹底分析DeepSeek所使用的數據源,試圖進行「逆向工程」——找出DeepSeek的模式進行模仿,防止下一代Llama 性能被DeepSeek遠遠領先。

但被「逆向工程」的不僅僅是模型本身,Meta對DeepSeek自身的企業結構、人才和工作文化都進行研究。Sandesh補充稱:

「雖然這麼說不太好,但當時管理層提出的疑問是:『中國人都能做到這一點,為什麼我們變成這樣?』」

包括大規模裁員及其他人事變動在內,Sandesh 提到,公司內部開始將中國的成功部分歸功於工作時數,並以此反思美國員工的努力程度——「儘管我們當時已經每週工作超過 50到60小時,但我們仍然覺得我們工作得不夠努力。」

這種「中國焦慮」的論調當然不僅存在於Meta,DeepSeek-V3的問世雖然引爆了這種焦慮,但科技圈對「中國模式」的推崇早就不是新鮮事。只不過,這種敘事在中美AI科技競賽下變得流行起來。

研究中美AI競賽的曾敬涵教授就認為,這種焦慮在很大程度上是人為製造的,尤其當ChatGPT和Claude繼續更新迭代下,這些模型在表現測試上毫無疑問仍然領先DeepSeek:

「在美國的商業模式下,它是有一種系統性的動機來炒作中國的人工智能發展……炒作『中國要贏了』,它才能夠在國內獲得更多的資源。」

曾敬涵認為,媒體與政界討論「贏得AI競賽」的背後,本質上是對整體「國家競爭力」下降的焦慮,這包括AI對經濟、技術乃至軍事地位的全面提升。這自然會在美國國內引發是否應該效法中國的討論,讓政府在AI發展中參與更多、扮演更積極的角色並提供更多資源。

隨着中美兩國在AI方面的競爭持續,「中國焦慮」論可能還會不斷浮現,它一方面為中國成為科技強國提供證據,另一方面則滿足了硅谷行業巨頭爭取資源、企業鞭策員工以在競爭中佔據高地的需求。

這種對於中國「舉國體制」贏得競賽的焦慮,與其說反映了中國體制的優越性,也許更多是美國對自身純商業導向模式的反思。