最強AI｜外媒實測Gemini／DeepSeek／Claude／ChatGPT 最好竟是它

外媒實測最強AI Gemini／DeepSeek／Claude／ChatGPT 最好竟是它｜AI 的發展已經超過用家的想像，不只是公司﹑專業人士，就連普通人都可能已經把AI應用放到日常生活中。過去幾年間，由 OpenAI 開發的 ChatGPT 長期佔據話題，而 Google 的 Gemini、Anthropic 的 Claude 以及內地的 DeepSeek，也紛紛透過大幅升級的模型與功能參與這場AI大戰。近日，《Tom’s Guide》針對這四大 AI 機器人的最新版本進行了全面實測，涵蓋推理能力、創造力、情商、生活建議與程式設計等五大場景，結果卻出乎意料：並非大家熟悉的 OpenAI ChatGPT 奪冠。

第一回合：推理與規劃

測試要求各大 AI 利用 5,000 美元預算，為一位熱愛健行、美酒與科幻電影的 40 歲壽星規劃一趟週末驚喜之旅。DeepSeek 提出了以納帕谷為主的高質感行程，結合戶外電影與葡萄酒品鑑，呈現出極具視覺美感與沉浸感的體驗。Claude 同樣以加州為主軸，但走高奢路線，安排了直升機飛越葡萄園、調酒工作坊與紅木森林健行。然而，最終 Gemini 脫穎而出，它結合了創意與靈活性，甚至加入了參訪 Lucasfilm 總部的尤達雕像等科幻元素，並保留預算彈性，可因應不同旅遊風格升級。ChatGPT 設計了星空健行與私人電影院，但在創新性上稍嫌保守。

第二回合：程式設計與除錯的處理能力

要求寫出一個 Python 函數，找出列表中出現次數最多的三個迴文詞（不區分大小寫），並處理邊界情況。Gemini 此處展現其全面性，不僅設計輔助函數來驗證迴文，還能處理非字串輸入與空值，並提供詳細測試計劃。DeepSeek 雖在程式簡潔度與效能上表現優異，卻缺乏模組化設計與邏輯說明。Claude 偏向彈性設計，但未處理同分情況；ChatGPT 則展現簡潔美，但疏於檢查輸入類型。最終，Gemini 以完善的錯誤處理與文檔撰寫勝出。

第三回合：情商

評測模擬朋友面臨心理壓力時的對話反應。Gemini 表現出臨床級的敏銳度，不僅使用同理語句，更引導使用者尋求即時支援，並鼓勵以「尋求幫助是勇氣的象徵」來重構觀點。Claude 的回應溫柔而實際，特別分開了立即需求與長期支持；DeepSeek 則強調同理與階層式溝通策略，但幽默使用稍嫌冒險。ChatGPT 保持簡潔與陪伴感，雖打動人心，但缺乏具體指引。Gemini 再度獲勝，不只是語言細膩，更結合資源建議與行動導向。

第四回合：生活建議

這個部分比較有趣，四者呈現出不同取向。提示詞是「我可以做出哪三項改進來提高生產力並減輕壓力？請具體說明。」DeepSeek 以神經生物學為基礎，提供時間管理與專注力提升技巧，並具體搭配免費資源與科學研究，但稍微假設用戶具備基礎知識。Claude 給予實用建議但缺乏生理技巧層面輔助，如呼吸訓練等；ChatGPT 回應快速但內容略顯籠統；Gemini 則透過 SMART 原則拆解問題，避免用戶陷入焦慮情境。這一回合由 DeepSeek 險勝，以結構完整與理論支持打動評審。

最終回合：創意

提示詞：「請用『養育一個孩子』來做擴展性比喻，解釋訓練一個大型語言模型的過程。比喻中需包含至少四個階段，並指出『不良養育』可能帶來的風險。」。DeepSeek 再度展示其精準邏輯與意象結構，四個階段清晰、風險分析完整，語言生動而不失技術感。Claude 的比喻則偏詩意，強調感性與故事性，但部分邏輯連貫度略有不足。Gemini 訴諸訓練階段比喻，概念清晰但過於冗長；ChatGPT 則以輕鬆語氣與 emoji 輔助說明，但技術含量偏低。這一輪由 DeepSeek 奪下勝利，彰顯其兼顧敘事與準確的能力。

經過五輪測試，總冠軍由 Gemini 奪得。它在情緒處理、創造性表現與技術完整度方面均有穩健發揮，並透過語言層次、結構安排與資源整合展現了 AI 的成熟實力。Gemini 的勝利，也象徵 Google 在大型語言模型的訓練與應用策略逐漸成形。

值得注意的是，DeepSeek在高階推理、科學設計與隱喻詮釋上的表現已足以與矽谷巨頭一較高下。至於 ChatGPT雖未在細節上拔得頭籌，但憑藉其穩定性與易用性，依舊是日常使用的選擇。

資料來源：tomsguide

銅鑼灣拖板短路起火　傳出爆炸聲｜拖板安全使用貼士　小心潮濕天全球手機廠商第一季報　iPhone減產40%　1國產品牌反超蘋果在即？