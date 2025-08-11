根據AI研究機構METR（Model Evaluation & Threat Research）發表的最新研究，AI可完成的任務時長能力（task time horizon，指AI系統可有效完成的任務，所需時間的上限），約每7個月就翻倍成長。也就是說，AI正在以驚人的速度進化。



根據METR的測試結果，先進的AI模型如Claude3.7，在特定基準（benchmark）上達成約50%成功率時，已能完成長達一小時的任務。

既然AI如此強大，為甚麼「真實世界」的工作，似乎沒有變得更輕鬆？許多例行任務仍未自動化：每天許多「人工」email往返，專案進度追蹤依賴實體會議討論，甚至像安排會議、文件分類這類任務，也依然是人類工作者的日常。這讓人產生疑問：既然AI已具備處理一小時長度任務的能力，為何還無法接手這些工作？

AI的限制1：現實任務多為複雜情境且不易拆解

根據METR研究結果，這個落差背後可歸因於AI的核心限制：AI任務能力的表現高度依賴特定領域、成功率若需提升至實務標準會大幅壓縮任務時長、而現實任務本身則高度綁定多重情境且不易拆解，與單純的測試環境大不相同。這些因素彼此交織，使得在多數工作情境中，AI仍難以輕易取代人類的角色。

前述AI能力的推估來自特定軟體類任務測試，如HCAST（Human-Centered AI Systems Testing）主要評估AI系統與人類互動時的有效性與適應性；RE-Bench（Reasoning Evaluation Benchmark）則檢驗模型在面對複雜邏輯推理任務時的表現精確度與邏輯一致性；SWAA Suite（Semantic Web Agent Assessment Suite）則用以評估AI代理在理解、處理與運用語義資訊上的能力。這些測試多為封閉、低變動、目標明確的場境，與真實工作中的任務結構存在落差。

且研究指出，若選擇不同任務領域，推估結果會大幅變動。舉例而言，若以象棋為分析基準，1990年代的AI已能操作數小時到數天長度的任務，但這顯然無法外推至職場中大多數工作。

此外，在測試平台OSWorld的電腦操作任務中，人類平均表現為73%，而目前頂尖AI僅有約42%。反過來，在長文本理解任務中，AI能有效處理比人類更大量的資訊。這說明AI的任務能力強烈依賴領域與任務類型。

AI的限制2：成功率的要求愈高，可處理的任務時長會跟著縮短

雖然AI在基準值任務上能以約50%成功率完成一小時任務，但這樣的準確率難以應用於實際工作情境。根據METR模型，當成功率需求提高至80%時，AI能處理的任務時長將降至約15分鐘；若進一步推估至99%的準確率，可處理的時長可能低於一分鐘。

在高風險領域如自動駕駛，常需極高的準確率來避免重大錯誤。儘管研究也指出人類在一小時任務中的成功率僅約50%，但人類的錯誤往往源於分心、資訊不足或中途放棄等非技術性原因，而AI的錯誤更常來自無法掌握上下文、缺乏必要資料或偏好理解。

這種結構性差異，使得AI若無法穩定達到高準確率，就難以被信賴用於更長任務或更關鍵的場景中。

AI的限制3：缺乏「上下文理解」，難以全面接管人類工作

AI難以處理許多短期任務的原因之一，是這些任務實際上通常綁定在更大的工作流程中。例如「寫email」這件事，看似可以自動化，但實際執行時涉及眾多隱含資訊：收件對象、對話上下文、寫信者意圖、任務進度與組織內共識等。

研究者列舉了下表中的數個實際email類型，並指出AI難以處理的關鍵原因：

Email類型1：有關潛在工作的邀請 + 聊天內容

AI無法自動處理的原因：AI無法判斷使用者是否對該職位有興趣；也無法知使用者的行程安排

Email類型2：針對上次專案對話的後續追蹤

AI無法自動處理的原因：AI 不知道先前對話的具體內容與專案細節

Email類型３：要求對特定作品或工作的回饋

AI無法自動處理的原因：AI 缺乏該領域的專業知識，無法提供具建設性的評論

Email類型４：回覆對 Epoch 研究領域有興趣的人的問題

AI無法自動處理的原因：AI 不清楚實際參與 Epoch 式研究的工作流程與經驗，也不了解內部如何運作

這些例子說明，雖然AI可生成語句通順的內容，但若無法掌握背景與偏好，就難以正確完成這些任務。若要解決這些問題，AI系統可能需要具備對使用者偏好、任務歷史的長期記憶能力，以及存取更多個人化情境資料。

研究也指出，為了真正自動化這類任務，可能需建立更複雜的基礎設施來記錄對話與作業流程，這會涉及隱私、安全與社會規範的重大變動。

為甚麼基準值成績不能代表AI真正能工作？

AI能否勝任現實工作，與其在基準測試中的表現不一定對等。原始研究者指出，真實工作往往是綁在一起的混合任務，並非可獨立拆分的短期任務。即使AI能處理一秒或一分鐘的任務，若無法解讀整體上下文與任務脈絡，將無法勝任更長時間的工作。

METR為此設計了一套「資料雜訊（messiness）指標」，用以評估現實任務的複雜度，包括是否存在人機互動、是否為動態環境、是否可自動評分等共16項因子。這顯示benchmark測試雖能追蹤AI能力增長趨勢，但無法完全反映真實工作場景的挑戰性。

工作任務不是一座又一做的孤島，而是交織成網絡的系統，只有真正理解任務之間的依賴關係，才能設計出具備實用價值的AI自動化系統。

【本文獲「經理人」授權轉載。】