Grok 4來襲 性能壓倒Google、OpenAI?唯高月租及火爆言論成焦點

撰文:數位時代
出版:更新:

xAI推出旗艦模型 Grok 4,月費近9,000元,性能超越 Google、OpenAI,並深度整合 X 平台,掀起高端 AI 市場新戰場。

重點一:馬斯克(Elon Musk)旗下 xAI 推出新一代旗艦 AI 模型 Grok 4,併發布每月300美元的高階訂閲方案,直接挑戰 OpenAI 與 Google 的市場地位。

重點二:xAI 宣稱 Grok 4 在多項關鍵基準測試中表現卓越,其性能在部分評測上已超越 Google 的 Gemini 2.5 Pro 和 OpenAI 的模型。

重點三:在 Grok 模型爆發反猶言論爭議,以及社群平台 X 執行長離職的動盪之際發布新品,為其商業化前景與企業信任度帶來考驗。

伊隆·馬斯克 (Elon Musk) 旗下的人工智慧公司 xAI 於台灣時間周四發布其最新的旗艦級 AI 模型 Grok 4,並同步推出名為 「SuperGrok Heavy」 的頂級訂閲服務,月費高達300美元(約為港幣2355元),此方案提供最強大的Grok 4 Heavy模型的使用權,但訂閲費比Google AI Ultra的每月收費250美元,以及OpenAI ChatGPT Pro的每月收費200美元還要更貴。

五大AI模型頂級方案比一比

五大AI模型頂級方案對比圖(數位時代提供)

據《Tech Church》報導,Grok 4 不僅能分析圖像並回應問題,更深度整合至馬斯克的社群網路 X 平台。儘管外界對其寄予厚望,期待它能與 OpenAI 預計於今夏稍晚推出的 GPT-5 一較高下,但 xAI 近期面臨的內部動盪與旗下模型的言論爭議,也為這次發布會蒙上一層陰影。

宣稱性能超越群雄,多項基準測試奪冠

xAI 強調 Grok 4 在學術問題上的表現已超越博士水準,馬斯克更在直播中表示:「Grok 4 在所有學科上都優於博士,無一例外。」他坦言模型有時可能缺乏常識,也尚未發明新技術或發現新物理學,但他認為這只是時間問題。

為證明其強大性能,xAI 公布了多項基準測試成績。在衡量 AI 回答數千個人文、數學等眾包問題能力的「Humanity's Last Exam」測試中, Grok 4 在無工具輔助下獲得 25.4% 的分數,超越了 Google Gemini 2.5 Pro 的 21.6% 及 OpenAI o3 (high) 的 21%。

而其「多代理版本」Grok 4 Heavy 在工具輔助下,分數更高達 44.4%,大幅領先 Gemini 2.5 Pro 的 26.9%。 此外,在另一項高難度的視覺模式識別測試 ARC-AGI-2 中,Grok 4 以 16.2% 的成績創下新紀錄,幾乎是次世代商用模型 Claude Opus 4 的兩倍。

在Humanity's Last Exam測試中,Grok 4 在無工具輔助下獲得 25.4% 的分數,超越了 Google Gemini 2.5 Pro 的 21.6% 及 OpenAI o3 (high) 的 21%。 (xAI@X)

根據第三方單位Artificial Analysis測試評比目前市場上所有的先進AI模型, Grok 4 在智慧指數 (Artificial Analysis Intelligence Index)中以 73 分的成績位居榜首。 緊隨其後的是 03-pro (72分)、Gemini 2.5 Pro (70分) 和 03 (70分),這些模型的分數都非常接近,為第一領先集團。

至於Anthropic旗下的Reason-4 Opus (64分),以及Claude 3 Sonnet Thinking (61分),分別拿下第10名與第14名;而科技巨頭中的末位者,則為Meta 的 Llama 系列, Llama 4 Maverick (51分) 和 Llama 4 Scout (43分) ,位於倒數之列。

Grok 4 在智慧指數中以 73 分的成績位居榜首。緊隨其後的是 03-pro (72分)、Gemini 2.5 Pro (70分) 和 03 (70分)。 (Artificial Analysis)

值得注意的是,在智慧指數前10名中,有兩個中國公司開發的模型,分別是DeepSeek R1 (68分)排名第6,以及第10名的Minimax M1 80k (63分)。

Grok 4 有哪些亮點功能?

根據目前公開資訊,位居目前市場中訂閲費最高的Grok 4(SuperGrok Heavy方案)具備以下幾項亮點功能:

1. 進階推理能力

Grok 4 在 xAI 的 Colossus 超級電腦上訓練,強調「科學家等級」的邏輯推理與文字生成能力,目標是能處理更復雜的問題與推理任務。

2. 多模態功能

Grok 4 支援文字、圖像和語音輸入,並具備圖像生成能力。雖然目前圖像識別功能仍在改進中,但其生成高品質圖片的速度快(通常 10-20 秒),適合創作者和需要圖文整合的場景。

3. 專用編碼模式(Grok 4 Code)

Grok 4 推出專為程式設計打造的 Grok 4 Code 模型,支援高階程式任務,可嵌入程式碼編輯器(如 Cursor),並提供自動化流程和代碼調試功能,特別適合開發者和工程團隊。這使其成為專業編碼應用的強大工具。

4. 即時檢索與 X 平台整合(RAG 架構)

Grok 4 採用檢索增強生成(RAG)技術,與 X 平台深度整合,能即時擷取 X 上的貼文、趨勢和公開資訊,提供具時效性的回答。這對於媒體、評論產業和需要快速掌握社群動態的用戶尤其有用。

5. 自然語音互動

Grok 4 Voice 提供更自然、接近真人的語音互動,減少對話中斷。此外,語音模式升級後更自然,支持低延遲對話,甚至可模擬唱歌或小聲說話。

6. 網路文化理解

Grok 4對網路迷因、流行語、幽默等有更高的理解度,強調「網感」與文化流暢度,適合重度網路用戶。

反猶言論延燒!xAI商業化之路挑戰重重

儘管 Grok 4 在技術指標上表現亮眼,xAI 的商業化之路卻非一片坦途。就在新品發布的同一天,在 X 公司任職約兩年的執行長琳達·雅克裏諾 (Linda Yaccarino) 宣佈離職,繼任人選懸而未決。

數天前,Grok 的官方自動化 X 帳號更因發表批評好萊塢「猶太高管」並讚揚希特勒的反猶言論而引發軒然大波,迫使 xAI 暫時限制該帳號並刪除爭議貼文。此事件讓外界質疑 Grok 的可靠性與安全性,也讓 xAI 在向企業推廣 Grok 作為 ChatGPT、Claude 和 Gemini 的替代方案時,面臨嚴峻的信任考驗。

為拓展市場,xAI 正透過 API 釋出 Grok 4,並計劃與超大規模雲端服務商合作,但能否說服企業客戶接納這個性能強大卻又充滿爭議的 AI 模型,仍有待市場觀察。

+2

延伸閲讀:同AI講禮貌會令OpenAI年損5000萬美元?ChatGPT與Grok有不同說法(點擊連結看全)

+16

延伸閲讀:

OpenAI宣戰Google!將推「AI瀏覽器」挑戰Chrome市佔霸權:為何Browser是AI終極戰場?

6種LINE自動化應用快學起來!AI回覆客戶、自動備份檔案、整理待辦事項...應用情境一次盤點

2025人工智慧趨勢報告:這5大AI趨勢,將塑造企業未來業務與發展!

【本文獲「數位時代」授權轉載。】