當機械人會功夫、做番茄炒蛋 2026年成「具身智能」元年?|專欄

撰文:藺思含
出版:更新:

今年2月,我在深圳南山一家具身智能企業跨維智能參觀時,有幸喝到了一個叫做DexForce的機械人給我做的一杯咖啡。把膠囊精準的放入咖啡機內,從紙杯桶中抽出紙杯放到出水口下方,等待咖啡製作完成,再把裝好的咖啡遞給我——每個動作絲滑流暢,舉手投足間透露着優雅和從容——這個身披黃色外殼、腳踩輪式底盤的人形機械人,據說就是去年在世界婦女大會上給國家主席習近平夫人彭麗媛倒咖啡的「小維」。

如果說打造像ChatGPT、DeepSeek這些大語言模型的過程就是教機械人說話、思考的過程,那麼打造具身智能(physical AI,智能機械人)就是教它們做事。

這些機械人雖然近兩三年在內地春節晚會的舞台上大出風頭——表演舞蹈、功夫,給人倒酒、上菜,但每隔一段時間,我們就會在社交平台上看到機械人在海底撈餐廳里表演時突然「暴走」,或是在波蘭的城市街頭追趕野豬——這些畫面成了如今機械人技術發展下的網絡迷因,它指向的是大多數人看到這些新興科技時所感受到的困惑:機械人好像能做很多,但在現實生活中,它真的能派上用場嗎?

如果你去問中國頭部人形機械人企業,他們會誠實的告訴你,目前還不能。

科技Tech Buzz China的創辦人馬睿表示,製造一個真正智能的自主機械人「基本上就等同於複製一個人類」,這比製作一個聊天機械人、或者抓取網絡資料的智能問答引擎要複雜得多。企業雖然已經可以製造一些像是交警、博物館導覽之類的機械人,但這些並不是真正必要的應用場景。

(就在筆者與Tech Buzz China馬睿對話後,一家總部位於法國的具身智能初創企業Genesis AI發佈了機械人基礎模型系統GENE-26.5,在演示影片中,機械人在該系統的驅動下,做了一道番茄炒蛋——這或許是目前看上去最能派上用場的人形機械人(見以下影片)。《商業內幕》引述Genesis AI的共同創辦人周銜報道,影片中多數步驟的成功率約90%到95%,但單手打蛋和用刀輔助把切好的番茄放進鍋裏這兩個動作,拍攝時成功率只有50%到60%。)

一個所有機械人企業面對的關鍵難點,是訓練數據的壓倒性不足,跟大語言模型相比,這是一個巨大的先天缺陷。

Open AI的ChatGPT、Anthropic的Claude和深度求索的DeepSeek,所有這些近兩年爆火的人工智能都得益於互聯網帶來的龐大「數據紅利」——互聯網其實從上世紀90年代開始,把人類的所有的知識、我們每個人每天的生活都持續的記錄到了互聯網上。

舉例而言,最為人所熟知的common crawl多年來就擔任了互聯網公共檔案館的角色,定期派出成千上萬個「數字圖書管理員」,爬取互聯網上的網頁,給它們拍照、存檔並編號,免費開放給全世界使用。此外還有像Google的Clueweb系列、Internet Archive的「時間機器(Wayback Machine)」等互聯網數據庫。這些數據庫為大模型提供了大量可用於訓練的文字和視像資源,允許人類用來教AI如何說話、思考、理解二維世界。

跨維的CEO、學者出身的賈奎說:「但當我們希望讓一個智能體在三維物理世界裏面去理解、決策和行動時,我們卻沒有像互聯網一樣現成的教學材料」,換句話說,從第一天開始,你想要做三維物理世界的AI,你就要想辦法解決數據(不足)的問題。」

但如何解決呢?

一種相對笨拙的教學方法,是「遙距操作」。如果把機械人想像成一個剛出生的孩子,那麼遙操作就相當於手把手教學,握着小朋友的手,一筆一劃的寫出「大」字。小朋友的手跟着你的力道移動,大腦則在記錄:哦,原來寫這個字需要這樣用力。

在機械人身上,這意味着由人類穿戴傳感設備(如VR手套或操作桿),直接控制機械人的動作,而機械人的感測器會記下電流、視覺畫面等必要的數據。這種方法精準、安全,但是成本高、效率低。機械人只能像鸚鵡學舌一樣,學一句、說一句。但實際上不理解任何一個動作,更加不會舉一反三。

第二種方法是影片教學。想像一下,當一個人從未下過廚、想要學做番茄炒蛋,他首先可能會到youtube上搜索做番茄炒蛋的教學影片,把所有的教學影片看完,學習如何持刀切番茄,如何打碎雞蛋,知道雞蛋要在多大的火候下、翻炒多久。

在實際訓練機械人的過程中,企業會利用生成式AI(如 Sora)生成機械人操作的視頻,再將這些二維的影片「翻譯」成機械人能執行的指令,相當於利用了現在大模型在生成圖像、影片上的先進技術來教會機械人做事。

然而,這種方法生成出來的影片肉眼看可能沒問題,但實際包含許多違反物理常識的細微錯誤,導致機械人無法在真實世界精準操作。賈奎形容這種教學方法下,機械人如同在「盲人摸象」,只是預測了視覺上(外在表象)的變化,而不是理解三維世界中的物理定律(如牛頓力學、因果律等)。

第三種方法則是構建一個符合真實物理規律的多維虛擬世界(Simulation),如同在元宇宙當中生成大量的三維數據來訓練機械人,再將這些在元宇宙當中不斷試錯、糾錯的模型遷移到真實世界(Sim-to-Real)。如此生成的數據生成高效、安全,模型能理解物理世界的內在運作規律,但技術門檻也最高。此外,虛擬世界與現實世界仍然存在一定差距。

從美國到中國,許多企業會選擇對這三種訓練方法進行融合,對於什麼才是教機械人做事的最優方法,業內並未形成共識。而除此之外,大部分的機械人本體運算能力不足——那些看似優雅、緩慢的動作背後,實際上是雲端傳輸的延遲問題難以解決,這又需要更好的機械人專用晶片......

技術上的瓶頸讓具身智能迎來一個像是ChatGPT和DeepSeek一樣的突破。沒有人知道它是什麼、什麼時候會到來,按照賈奎的說法,一旦出現,它不僅會對整個社會經濟產生巨大的牽引作用,而且未來的頂尖具身智能公司的估值很有可能達到現在大語言模型公司的10倍——「這個很可能,但現在還沒有」。

內地科技媒體「極客公園」引述Genesis AI的周銜表示,具身智能有望在一到两年内、在实验室环境中进入类似GPT-3.0的阶段,屆時,专业研究者会看到明显的能力跃迁,并对技术路线形成相对基本的共识。(2022年震驚世人的是GPT-3.5版本,這時GPT的能力才足以讓普通人能夠在日常生活中廣泛應用。)

不過,這並不妨礙今年更多普通人在日常生活中見到人性機械人。賈奎表示,2026-2028年,在現實生活中與人交互的服務機械人正在迎來一個爆發期,我們會在身邊看到更多的機械人——商鋪店員、餐廳侍應、辦公或是娛樂場所的接待人員,而這會讓機械人的商業價值將遠遠超過AI圈的紅人——大語言模型。

曾在500 Startups擔任投資合夥人的馬睿說,她對中國機械人產業的前景尤其感到興奮:「中國在機械人領域擁有『完整的配套』」,這包括龐大的市場及在工業、服務業和零售業乃至家庭應用等場景中極大的應用潛力,「這種產能與規模優勢在美國是不存在的」。

另一個有趣的差異是,在美國,人們普遍對機械人存在排斥和恐懼,而在中國,許多人更看重便利性——「即使美國服務業有大量職位空缺,大眾也不願意用機械人來取代人力,因為這在文化與根本上被視為一件「壞事』。如果將機械人放在街上當交通警察,或是安排在停車場提供服務,在大多數美國城市都會被認為「很奇怪」。