數據駐留+本土模型 美企兜售的「主權AI」真的存在嗎?|專欄
2024年2月,此時距離ChatGPT發佈不過一年多,英偉達CEO黃仁勳在杜拜舉行的世界政府首腦會議上,向來自150個國家的數千名代表進行了大規模、最公開的宣發——「每個國家都需要主權AI」。
黃仁勳的意思是,叫各國政府領導人不要依賴外國模型,從本土化大模型到建設數據中心等AI基礎設施,都要建立自主生產智能的能力。
這次宣發後黃仁勳很快開啟一場龐大的全球巡遊,到訪加拿大、法國、印度、日本、馬來西亞、新加坡和越南會見各國領導人,向他們推銷建設這些「AI工廠」所需的硬件設備。
事實證明黃仁勳的提案很有先見之明。除了英偉達,Oracle、Google和Open AI等企業此後也陸續開始推銷自家「主權AI」方案,而這後來也被寫入行政令《Promoting the Export of the American AI Technology Stack》中,以支持美國科技企業向外國政府銷售「主權AI」。
隨着大模型迅速在世界的各個角落落地甚至一步步普及,「主權AI」的必要性也越來越明顯。
讓伊斯蘭教徒喝啤酒的LLM?
如果你是嚴守穆斯林教條的沙特阿拉伯公民,平時使用ChatGPT、Gemini這類大語言模型創作故事,提到某個人物完成祈禱後的活動時,模型有可能會為你構思一個去喝杯啤酒的場景,但全然不覺這是伊斯蘭傳統中的文化和宗教禁忌。
這正是美國佐治亞理工學院(Georgia Institute of Technology)研究者發現的一個典型案例。
這項發表於2024年的研究指出大語言模型中普遍存在的西方文化偏見,除了文化上的無知,模型在撰寫虛構故事時,經常將阿拉伯男性的名字與「貧窮」或「守舊」等形容詞相關聯,而西方名字則被賦予「富有」或「受歡迎」等特徵。
研究的作者之一Alan Ritter表示:「當模型被要求為使用阿拉伯名字的人物生成虛構故事時,模型往往會把阿拉伯男性名字與貧窮和傳統主義聯繫起來。舉例來說,GPT‑4更傾向選擇「固執」、「貧窮」或「樸素」這類形容詞。相反的,在為西方名字的人物生成故事時,像「富有」、「受歡迎」、「獨特」這樣的形容詞則更常出現。』」
不難想像,如果你是一個阿拉伯人,用這樣的模型難免會感到氣憤甚至屈辱。
更廣泛的來看,企業和政府層面的應用將觸及更多牽涉本國價值觀、政策、法律框架的問題。即便拋開輿論常常關注的意識形態輸出、文化入侵的考量,這些差異也會造成嚴重的應用障礙。一位來自印度的AI企業家Vivek Raghavan精準指出了痛點:
在AI領域,主權遠比建立最大的模型更重要。一個經過外國資料訓練出來的模型,無法真正理解印度的一個村委會、農作物保險計劃,或是六億人口實際上是怎麼說話的。
他稱,現有的大模型使用的訓練數據中印度語佔比不足1%,這些對西方語境的結構性偏見無論如何微調都難以完全修正。「從零開始、建立主權資料庫、使用印度基礎設施建造(LLM),並不是出於民族主義,這是工程需求。」
從主權LLM到數據駐留
不過,這樣的理想固然很美好,現實卻很骨感:從零開始打造主權LLM不僅價格高昂,在技術和資金實力限制下,最終結果很可能費力不討好。
一種性價比更高的方案是基於頂尖的開源模型進行再訓練和微調,最終讓模型跟本國語言、文化和制度適配,這是不少國家的選項。至於那些財大氣粗的中東國家則可以跟使用美國AI巨頭的頂尖閉源模型,但這又帶來另一個問題。
隨着AI大模型的發展,我們不難想像這些大模型未來更廣泛、更深入的嵌入政府各部門的運作、公共服務乃至國家的軍事、金融體系,還有各個產業鏈、企業內部運作,如此一來,數據的本地化儲存(數據駐留權)就會成為關乎國家安全的問題。而這也是大多數美國科技巨頭向各國政府推銷的重點——本地AI數據中心,確保所有數據儲存在本地。
在理想的情況下,這包括當我們將政府或企業內部數據、個人私隱輸入大模型進行運算時,這些資料仍然依靠本地數據中心中的伺服器進行運算,而不是被傳回美國AI企業的境外伺服器上。問題在於,如果想要使用最頂尖的ChatGPT、Claude這類閉源模型,企業不可能允許外國政府將其下載到本國數據中心的伺服器上使用,「數據出境」就難以避免——畢竟,這些模型的權重是企業的最重要知識產權。
也正是因為如此,許多國家選擇使用基於開源權重模型(包括Meta的Llama、中國的Qwen和法國的Mistral)開發或微調的本國大模型,不僅僅是出於性價比,更多是因為這些模型可以被下載到本地的伺服器,百分百實現數據駐留。
地緣政治夾縫
值得注意的是,G42與OpenAI的協議當中包括一項排他性條款——即不再使用中國企業的硬件。
早期G42曾大量使用中國科技公司(如華為)的設備並與這些企業又密切合作。但為了確保能持續取得美國最先進的AI晶片(如輝達的GPU)與技術授權,G42全面清退了中國的硬件設備與投資,徹底轉向美國的技術陣營。
很顯然,地緣政治也成了各國政府建立AI主權的另一個難題。
對大多數非美國盟友、又不在美國晶片管控清單上的國家,最好的方案大概是在中國和美國技術中找到平衡。新加坡投入7000萬新元(約4.3億港元)開發的本國大模型 SEA-LION,是基於中國及美國的開源模型(包括Meta的Llama 3.1、Google的Gemma 2和阿里巴巴的千問)開發,同時使用英偉達的晶片,並與微軟、AWS和字節跳動都簽署了建設數據中心的協議。
即便是一些有足夠經濟實力、能夠擁有本國數據中心和大模型的中等強國,目前在晶片供應上也只能完全依賴美國企業。換句話說,從晶片供應、算力、能源和數據中心等基礎設施到AI大模型以及下游應用層,建立一個獨立於其他國家、完整的AI技術棧,幾乎是不可能實現的。
當數據中心佔全國一半供電
許多科技巨頭推銷的「主權AI」,與其說是真正的AI主權,不如說是閹割版的技術棧,說到底是通過購買外國技術建立主權——新美國安全中心的主權AI指數報告顯示,全球近七成「主權AI」項目有至少一家外國技術提供者,當中絕大多數來自美國——其中的悖論不言自明。
對其他欠發達地區國家,在解決晶片的問題之前,驅動AI數據中心的能源設施已經是一道過不去的難關。在肯尼亞,政府曾經與微軟(Microsoft)討論建立數據中心,但僅一個數據中心一年的運作就需要1,500兆瓦的電力,相當於全國總發電量的一半。
Wenslous Egesa,一位為非洲各國政府和企業提供AI政策建議的肯尼亞諮詢公司Qhala的AI工程師告訴我:「我相信主權AI……是一個很好的倡議。但我看不出它要怎麼運作……當你深入到實際在地運作中,這真的非常難以推進。」
他說:「許多人不願意為了區區一個數據中心而被迫切斷家裏的燈光。」