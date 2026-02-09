當我們談論人工智慧的下一個轉捩點，越來越多科學家、企業家與開發者把焦點放在一個看似冷門但至關重要的領域——Spatial 3D AI（三維空間人工智慧）。這不只是讓機器理解三度空間的幾何結構，而是讓AI真正讀懂這個物理世界，具備人類般的空間感、身體知覺與常識推理能力。這項能力，正是邁向通用人工智慧（AGI）的基礎建設。



文：Michael C.S. So ｜ AiX Society

什麼是Spatial 3D AI？

Spatial 3D AI 指的是能夠「看見」並理解物理世界的 AI。它不只是從2D影像辨識物件，而是要能建構三維場景，推斷物體的深度、相對位置、潛在物理互動，甚至預測行為的結果。舉例來說，一個具備空間智能的AI看到一杯水懸掛在桌邊，會預測若有人碰撞桌面，水杯會掉落並打翻。

這不單是感測技術的問題，更是AI必須學會如何整合視覺、聽覺、觸覺等感官數據，建立一套內在的「世界模型」（World Model）去模擬環境中的可能性。這樣的能力在人類心智中天生具備，但對AI來說，是一項全新的挑戰。

空間智能為何是AGI的必要條件？

人類之所以具備「常識」，是因為我們從小就在與三維世界互動的過程中，建立起因果推論與空間記憶的能力。這一點，也是李飛飛教授（Fei-Fei Li）近年在Stanford大力倡議的觀點。她在2025年於《TIME》撰文指出：「AI若缺乏對空間的理解，就無法真正擁有常識與推理能力。Spatial intelligence is the scaffolding of human cognition.」

她更進一步指出，儘管大型語言模型能夠說出精彩的故事、寫出代碼、回答複雜問題，但它們就像「盲目的說書人（blind storytellers）」，對於物理世界一無所知。她寫道：「LLMs are eloquent but inexperienced, knowledgeable but ungrounded. They talk about the world but don’t truly know the world.」

因此，若AI無法掌握三維空間的幾何、物體間的因果關係、動作與結果之間的推理，它終究只能停留在符號與語言的層次，無法進入真正「智能」的世界。

Omniverse與數位孿生：AI的虛擬訓練場

目前AI最重要的空間訓練平台之一，是由NVIDIA打造的Omniverse。這是一個可進行物理正確模擬的3D數位孿生平台，允許企業在虛擬世界中設計、部署並優化真實世界中的系統與流程。

NVIDIA CEO黃仁勳曾表示：「Everything that moves will be robotic and embodied by AI. Omniverse will be the operating system of physical AI.」這個願景已經在BMW、Amazon等企業中實現。例如BMW透過在Omniverse中重建汽車工廠，模擬生產線改動，成功提升30%效率；Amazon則模擬50萬個倉儲機器人進行場景演練與佈局優化，節省大量實體測試成本。

這些虛擬世界能產生大量synthetic data，提供AI訓練使用，有效解決真實世界資料取得困難與昂貴的問題。

Embodied AI：智慧不是「只有腦袋」

空間智能不能只靠大腦（模型），還需要身體（embodiment）。李飛飛教授與其他神經科學家強調，智慧是感官、動作與環境互動的結果。AI若無法透過攝影機、深度感測器、機械手臂等硬體與世界互動，將無法建立真正的「常識」。

她指出：「It is much more likely that AI systems will develop human-like cognition if they are built with architectures that learn and improve in similar ways as the human brain, using connections to the real world.」

目前如Meta的AI Habitat、AI2的THOR平台，正是為此而建的模擬空間，讓AI代理人能進行「模擬體驗」並透過強化學習獲得真實操作能力。

世界模型（World Models）：AI的內在宇宙

為了讓AI真正理解物理環境與未來情境，它需要具備一個內建的「世界模型」。李飛飛將這種模型定義為具備三大特性：

生成性（Generative）：能產生符合語義與物理邏輯的3D世界，並能模擬其中的事件發展；

多模態（Multimodal）：能整合語言、影像、聲音、深度感測等多元感官輸入；

互動性（Interactive）：能在輸入「某個動作」後，推算出環境中各項變數的更新。

她的新創公司World Labs已針對這方向推出原型系統 Marble，可從簡單語句中生成可以互動與導航的虛擬3D世界，為訓練AI提供更多的「心理模擬沙盒」。

通用智慧的下一站：從「Words」走向「Worlds」

AI發展的頭十年，專注於語言與圖像辨識。但下一個十年，若要真正進入人類世界、協助人類工作與生活，AI就必須具備對空間的理解能力。李飛飛寫道：「To move toward AGI, we must move from words to worlds.」

這樣的AI不再只是回應問題的助理，而是能夠進入家庭、工廠、醫院等真實空間，理解人類的語言並轉化為真實世界的行動決策，具備感知、記憶、預測與適應的能力。

空間智能，打開AGI的通道

人工智慧要真正「通用」，就不能停留在資料與語言處理層次。它必須能夠感知現實世界、理解環境結構、預測物理事件、並與人類共享空間與任務。Spatial 3D AI 正是在這條通往AGI的路上，打開那扇必要的大門。

如李飛飛所說：「Without spatial understanding, AI is blind to the real world. With it, we begin to see the potential for machines to reason, imagine, and collaborate as we do.」

空間智能不是AI的附加功能，而是它邁向真正智慧與共存時代的根本能力。未來，我們不只期待AI能說得頭頭是道，更期待它能「進得來我們的世界」，與我們共創新價值。