AWS AI基礎設施升級|Trainium晶片與AI Factory打造企業級算力

撰文:鍾世傑
出版:更新:

AWS AI基礎設施全面升級|Trainium晶片與AI Factory 打造企業級算力新格局

AWS AI基礎設施全面升級|Trainium晶片與AI Factory 打造企業級算力新格局

從運算核心到私有AI區域 AWS重塑全球AI生產力版圖

在今年 AWS re:Invent 的主題演講中,行政總裁 Matt Garman 率先從 AI 基礎設施切入,勾勒企業級人工智能的下一階段:從晶片、伺服器到私有雲部署,AWS 正以全新形態的算力體系,為全球客戶開啟 AI 模型訓練與推理的新紀元。

Trainium3 UltraServers 問世:性能與能效同步躍升

Trainium3 UltraServers 問世:性能與能效同步躍升

AWS 發佈最新一代 Amazon Trainium3 UltraServers,標誌 AI 算力正式進入 3 納米世代。這款伺服器搭載高達 144 顆定制化 AI 晶片,具備驚人的 362 PFLOPS FP8 運算能力,比前一代 Trainium2 系列在能效、頻寬及輸出能力上均有重大突破:

運算效能提升 4.4 倍

記憶體頻寬增強 3.9 倍

每兆瓦處理 Token 數量上升至 5 倍以上

在實際應用上,Trainium3 為訓練大型語言模型提供最佳效能。測試顯示,運行 OpenAI GPT-OSS-120B 模型時的能源效率,遙遙領先上一代平台。

Garman 亦首次預告 Trainium4 晶片 正在研發中。該晶片將具備六倍 FP4 運算能力、四倍頻寬及雙倍記憶體容量,預期進一步鞏固 AWS 在雲端 AI 晶片領域的長期領先地位。

他強調:「我們並非只追求速度,而是打造全球最具能源效率的 AI 運算平台,讓訓練與推理成本同時下降。」

強化生態:AWS × NVIDIA 合作邁入15年

強化生態:AWS × NVIDIA 合作邁入15年

AWS 與 NVIDIA 的技術合作已超過 15 年,是行業最早在雲端提供 GPU 運算能力的供應商之一。

新一代 P6e-GB300 實例 採用 NVIDIA 最新 GBNVL72 系統架構,專為超大規模生成式 AI 工作負載及多模態模型訓練而設。這些高密度 GPU 節點不僅大幅提升推理速度,亦優化了叢集穩定性。Garman 提到,AWS 能夠透過 BIOS 層級的 Debug 工具、逐案例根因分析等技術,確保集群在長時間運行下依然維持業界最佳穩定性。

目前 ChatGPT 等超大模型工作負載,已於 AWS 的 EC2 Ultra Cluster 上運行,規模可擴展至 數十萬顆 GPU、千萬級 CPU,成為現時全球最大 AI 運算集群之一。

AI Factory 登場:跨越數據主權的最後藩籬

AI Factory 登場:跨越數據主權的最後藩籬

在這場被譽為年度最具顛覆性的發佈會上,AWS 同步推出 Amazon AI Factories 服務,開啟企業自建專屬 AI 區域的嶄新範式。

靈感源自與沙特阿拉伯新創城市 Neom 的合作經驗,AI Factories 允許企業在自家數據中心內直接部署 AWS 專用 AI 基礎架構,包括 Amazon Trainium UltraServers、NVIDIA GPU、Amazon SageMaker 及 Amazon Bedrock 等核心平台組件。

AI Factories 的最大價值在於 —— 「雲端體驗,本地部署」。客戶可在遵循嚴格法規與數據主權要求下,享有與公有雲一致的運行效能與管理體驗。這樣的混合部署模式,為金融、政府及醫療行業帶來關鍵突破,特別適用於無法將敏感數據外移的企業。

Garman 表示:「AI Factories 讓企業能在自己的環境中擁有一座真正屬於自身的 AI 工廠。」

科學領域實例:Vialet 的 AI 推理突破

生物科技公司 Vialet 成功展示強大 AI 基礎設施的潛能。該公司利用 AWS 平台訓練「科學多面手(Science Generalist)」AI,能夠主動生成研究假設、設計實驗並自我驗證結果。

這套系統目前已分析並處理數萬億科學推理 Token,預期數年內將增長一百倍。透過 AWS 的自主算力與智能代理結構,Vialet 以幾乎即時的速度迭代模型,顯著縮短藥物研發與新材料發現週期。

此案例充分說明,AI Infrastructure 不僅是一種技術資源,更是一個推動產業創新的催化劑。

關鍵洞察:企業AI戰略新模板

AWS 的基礎設施升級,凸顯兩大戰略方向:

一是 AI運算的在地化與即時化——企業可在任何地點部署相同級別的 AWS 能力;

二是 AI成本與能源效率的再定義——以自主晶片及硬件優化降低推理成本,並推動綠色AI運算。

對企業而言,這意味他們能在兼顧法規與性能的前提下,加速從「試點」邁向「全面部署」AI 應用。

Garman 總結指出:「從雲端到邊緣,我們正在重構全球 AI 生產力的基礎。」