最強AI|外媒實測Gemini/DeepSeek/Claude/ChatGPT 最好竟是它

撰文:陳錦洪
出版:更新:

外媒實測最強AI Gemini/DeepSeek/Claude/ChatGPT 最好竟是它|AI 的發展已經超過用家的想像,不只是公司﹑專業人士,就連普通人都可能已經把AI應用放到日常生活中。過去幾年間,由 OpenAI 開發的 ChatGPT 長期佔據話題,而 Google 的 Gemini、Anthropic 的 Claude 以及內地的 DeepSeek,也紛紛透過大幅升級的模型與功能參與這場AI大戰。近日,《Tom’s Guide》針對這四大 AI 機器人的最新版本進行了全面實測,涵蓋推理能力、創造力、情商、生活建議與程式設計等五大場景,結果卻出乎意料:並非大家熟悉的 OpenAI ChatGPT 奪冠。

第一回合:推理與規劃

測試要求各大 AI 利用 5,000 美元預算,為一位熱愛健行、美酒與科幻電影的 40 歲壽星規劃一趟週末驚喜之旅。DeepSeek 提出了以納帕谷為主的高質感行程,結合戶外電影與葡萄酒品鑑,呈現出極具視覺美感與沉浸感的體驗。Claude 同樣以加州為主軸,但走高奢路線,安排了直升機飛越葡萄園、調酒工作坊與紅木森林健行。然而,最終 Gemini 脫穎而出,它結合了創意與靈活性,甚至加入了參訪 Lucasfilm 總部的尤達雕像等科幻元素,並保留預算彈性,可因應不同旅遊風格升級。ChatGPT 設計了星空健行與私人電影院,但在創新性上稍嫌保守。

第二回合:程式設計與除錯的處理能力

要求寫出一個 Python 函數,找出列表中出現次數最多的三個迴文詞(不區分大小寫),並處理邊界情況。Gemini 此處展現其全面性,不僅設計輔助函數來驗證迴文,還能處理非字串輸入與空值,並提供詳細測試計劃。DeepSeek 雖在程式簡潔度與效能上表現優異,卻缺乏模組化設計與邏輯說明。Claude 偏向彈性設計,但未處理同分情況;ChatGPT 則展現簡潔美,但疏於檢查輸入類型。最終,Gemini 以完善的錯誤處理與文檔撰寫勝出。

第三回合:情商

評測模擬朋友面臨心理壓力時的對話反應。Gemini 表現出臨床級的敏銳度,不僅使用同理語句,更引導使用者尋求即時支援,並鼓勵以「尋求幫助是勇氣的象徵」來重構觀點。Claude 的回應溫柔而實際,特別分開了立即需求與長期支持;DeepSeek 則強調同理與階層式溝通策略,但幽默使用稍嫌冒險。ChatGPT 保持簡潔與陪伴感,雖打動人心,但缺乏具體指引。Gemini 再度獲勝,不只是語言細膩,更結合資源建議與行動導向。

第四回合:生活建議

這個部分比較有趣,四者呈現出不同取向。提示詞是「我可以做出哪三項改進來提高生產力並減輕壓力?請具體說明。」DeepSeek 以神經生物學為基礎,提供時間管理與專注力提升技巧,並具體搭配免費資源與科學研究,但稍微假設用戶具備基礎知識。Claude 給予實用建議但缺乏生理技巧層面輔助,如呼吸訓練等;ChatGPT 回應快速但內容略顯籠統;Gemini 則透過 SMART 原則拆解問題,避免用戶陷入焦慮情境。這一回合由 DeepSeek 險勝,以結構完整與理論支持打動評審。

最終回合:創意

提示詞:「請用『養育一個孩子』來做擴展性比喻,解釋訓練一個大型語言模型的過程。比喻中需包含至少四個階段,並指出『不良養育』可能帶來的風險。」。DeepSeek 再度展示其精準邏輯與意象結構,四個階段清晰、風險分析完整,語言生動而不失技術感。Claude 的比喻則偏詩意,強調感性與故事性,但部分邏輯連貫度略有不足。Gemini 訴諸訓練階段比喻,概念清晰但過於冗長;ChatGPT 則以輕鬆語氣與 emoji 輔助說明,但技術含量偏低。這一輪由 DeepSeek 奪下勝利,彰顯其兼顧敘事與準確的能力。

經過五輪測試,總冠軍由 Gemini 奪得。它在情緒處理、創造性表現與技術完整度方面均有穩健發揮,並透過語言層次、結構安排與資源整合展現了 AI 的成熟實力。Gemini 的勝利,也象徵 Google 在大型語言模型的訓練與應用策略逐漸成形。

值得注意的是,DeepSeek在高階推理、科學設計與隱喻詮釋上的表現已足以與矽谷巨頭一較高下。至於 ChatGPT雖未在細節上拔得頭籌,但憑藉其穩定性與易用性,依舊是日常使用的選擇。

資料來源:tomsguide