AI教母李飛飛教授|通往人工智慧關鍵拼圖Spatial 3D AI|蘇仲成
當我們談論人工智慧的下一個轉捩點,越來越多科學家、企業家與開發者把焦點放在一個看似冷門但至關重要的領域——Spatial 3D AI(三維空間人工智慧)。這不只是讓機器理解三度空間的幾何結構,而是讓AI真正讀懂這個物理世界,具備人類般的空間感、身體知覺與常識推理能力。這項能力,正是邁向通用人工智慧(AGI)的基礎建設。
文:Michael C.S. So | AiX Society
什麼是Spatial 3D AI?
Spatial 3D AI 指的是能夠「看見」並理解物理世界的 AI。它不只是從2D影像辨識物件,而是要能建構三維場景,推斷物體的深度、相對位置、潛在物理互動,甚至預測行為的結果。舉例來說,一個具備空間智能的AI看到一杯水懸掛在桌邊,會預測若有人碰撞桌面,水杯會掉落並打翻。
這不單是感測技術的問題,更是AI必須學會如何整合視覺、聽覺、觸覺等感官數據,建立一套內在的「世界模型」(World Model)去模擬環境中的可能性。這樣的能力在人類心智中天生具備,但對AI來說,是一項全新的挑戰。
空間智能為何是AGI的必要條件?
人類之所以具備「常識」,是因為我們從小就在與三維世界互動的過程中,建立起因果推論與空間記憶的能力。這一點,也是李飛飛教授(Fei-Fei Li)近年在Stanford大力倡議的觀點。她在2025年於《TIME》撰文指出:「AI若缺乏對空間的理解,就無法真正擁有常識與推理能力。Spatial intelligence is the scaffolding of human cognition.」
她更進一步指出,儘管大型語言模型能夠說出精彩的故事、寫出代碼、回答複雜問題,但它們就像「盲目的說書人(blind storytellers)」,對於物理世界一無所知。她寫道:「LLMs are eloquent but inexperienced, knowledgeable but ungrounded. They talk about the world but don’t truly know the world.」
因此,若AI無法掌握三維空間的幾何、物體間的因果關係、動作與結果之間的推理,它終究只能停留在符號與語言的層次,無法進入真正「智能」的世界。
Omniverse與數位孿生:AI的虛擬訓練場
目前AI最重要的空間訓練平台之一,是由NVIDIA打造的Omniverse。這是一個可進行物理正確模擬的3D數位孿生平台,允許企業在虛擬世界中設計、部署並優化真實世界中的系統與流程。
NVIDIA CEO黃仁勳曾表示:「Everything that moves will be robotic and embodied by AI. Omniverse will be the operating system of physical AI.」這個願景已經在BMW、Amazon等企業中實現。例如BMW透過在Omniverse中重建汽車工廠,模擬生產線改動,成功提升30%效率;Amazon則模擬50萬個倉儲機器人進行場景演練與佈局優化,節省大量實體測試成本。
這些虛擬世界能產生大量synthetic data,提供AI訓練使用,有效解決真實世界資料取得困難與昂貴的問題。
Embodied AI:智慧不是「只有腦袋」
空間智能不能只靠大腦(模型),還需要身體(embodiment)。李飛飛教授與其他神經科學家強調,智慧是感官、動作與環境互動的結果。AI若無法透過攝影機、深度感測器、機械手臂等硬體與世界互動,將無法建立真正的「常識」。
她指出:「It is much more likely that AI systems will develop human-like cognition if they are built with architectures that learn and improve in similar ways as the human brain, using connections to the real world.」
目前如Meta的AI Habitat、AI2的THOR平台,正是為此而建的模擬空間,讓AI代理人能進行「模擬體驗」並透過強化學習獲得真實操作能力。
世界模型(World Models):AI的內在宇宙
為了讓AI真正理解物理環境與未來情境,它需要具備一個內建的「世界模型」。李飛飛將這種模型定義為具備三大特性:
生成性(Generative):能產生符合語義與物理邏輯的3D世界,並能模擬其中的事件發展;
多模態(Multimodal):能整合語言、影像、聲音、深度感測等多元感官輸入;
互動性(Interactive):能在輸入「某個動作」後,推算出環境中各項變數的更新。
她的新創公司World Labs已針對這方向推出原型系統 Marble,可從簡單語句中生成可以互動與導航的虛擬3D世界,為訓練AI提供更多的「心理模擬沙盒」。
通用智慧的下一站:從「Words」走向「Worlds」
AI發展的頭十年,專注於語言與圖像辨識。但下一個十年,若要真正進入人類世界、協助人類工作與生活,AI就必須具備對空間的理解能力。李飛飛寫道:「To move toward AGI, we must move from words to worlds.」
這樣的AI不再只是回應問題的助理,而是能夠進入家庭、工廠、醫院等真實空間,理解人類的語言並轉化為真實世界的行動決策,具備感知、記憶、預測與適應的能力。
空間智能,打開AGI的通道
人工智慧要真正「通用」,就不能停留在資料與語言處理層次。它必須能夠感知現實世界、理解環境結構、預測物理事件、並與人類共享空間與任務。Spatial 3D AI 正是在這條通往AGI的路上,打開那扇必要的大門。
如李飛飛所說:「Without spatial understanding, AI is blind to the real world. With it, we begin to see the potential for machines to reason, imagine, and collaborate as we do.」
空間智能不是AI的附加功能,而是它邁向真正智慧與共存時代的根本能力。未來,我們不只期待AI能說得頭頭是道,更期待它能「進得來我們的世界」,與我們共創新價值。