弱智竟成第一！科研團隊訓練語言AI 百度弱智吧資料模型跑分最高

弱智竟成第一！科研團隊訓練語言AI 百度弱智吧資料模型跑分最高｜AI可說是近年科技的焦點，由語言AI模型到AI繪圖、AI剪片、AI助手等等，能在生活中應用AI技術的地方越來越多，世界各地的科研團隊和技術人員也在積極開發AI。而最近內地就有團隊研究如何提升中文AI語言模型的性能，運用百度貼吧「弱智吧」的資料來訓練AI，結果卻令人出乎意料地好。

百度貼吧著名勝地「弱智吧」

「弱智吧」是內地著名討論區「百度貼吧」的其中一個貼吧（版塊）；一般而言百度貼吧的名稱代表該貼吧的討論主題，但弱智吧當然不是真的弱智人士的集中地或討論智力障礙的地方，而網民「耍白痴」開玩笑、分享無聊笑話（爛gag）和對答的集中地，感覺類似香港高登討論區、連登討論區上的「假膠」；只是在弱智吧內幾乎沒有認真討論的帖文，全都是在耍弱智。

一個典型的「弱智吧」帖文和回覆。

👉3DS Wii U中止網路服務｜網民數當年玩過咩game：MH4G係我嘅青春

讓人意想不到的是，耍廢、冷笑話的集中地「弱智吧」，竟然能成為語言AI訓練模型的良好學習資料。內地網民「量子位」日前就在資訊網站「虎嗅」上撰寫文章分享，指內地一個由中科院深圳先進技術研究院、中科院自動化研究所，滑鐵盧大學等眾多高校、研究機構聯合團隊，使用各個網路平台的帖文來訓練語言AI模型，然後以該模型來跑分測試其性能。

https://www.huxiu.com/article/2875966.html

據悉這項研究最初是為解決中文大模型訓練中的諸多問題：例如訓練用的中文資料集往往是從英文翻譯過來，未能很好地契合中文的語言習慣和文化背景；以及資料集質量難以保證、資料量小、覆蓋領域不全面等問題，容易令訓練出來的語言模組出現事實性錯誤。

團隊從中文網際網路的各種知識源頭及社交平台如知乎、豆瓣、百科、小紅書等收集資料，經過挑選及審核之後，成為一份多樣化的中文指令微調資料集COIG-CQIA，而「弱智吧」亦是其中一個資料來源。

零一萬物Yi系列AI模型

👉Mario也輸給她！英國電影學會票選最具代表性遊戲角色網民不認同

團隊接下用這些來自不同平台的資料集來訓練「零一萬物Yi系列」開源大模型以測試其性能，結果發現使用「弱智吧」帖文訓練的語言AI，跑分成績比使用百科、知乎、豆瓣、小紅書等社交平台來訓練的AI要高得多，甚至比團隊用特意挑選的資料集所訓練出來的模型的成績都要好。

在規模較小的Yi-6B模型上，純弱智吧版本總分排名第三，已經是令人意外的佳績了；而到了規模較大的Yi-34B模型測試，弱智吧版本的表現可謂一騎絕塵，在問答、頭腦風暴、分類、生成、總結、提取等8項測試中取得最高分。用弱智吧資料訓練出來AI模型僅在改寫和數學任務上沒能取得最高分，但成績亦在前列。

Rouzhiba就是弱智吧。https://arxiv.org/abs/2403.18058

最讓人意想不到的是，在安全評估上弱智吧版本也能排上第二；而在測試中弱智吧AI的編程能力（寫code）也超過了使用專業編程技術問答社區「思否」資料訓練出來的AI。

https://arxiv.org/abs/2403.18058

對於本以為是「弱智」的資料卻訓練出最高性能的AI模型，研究人員認為原因可能是「弱智吧的問題增強了AI的邏輯推理能力，從而令其遵循指令任務的能力有所提高。」

👉《星之後裔》首抽攻略｜快刷首抽方法開局最強角色推薦｜手遊

「弱智吧Benchmark」無厘頭問題帖文成AI測試工具

研究公開之後除了網友對「弱智成最強」一事感到莞爾之外，也有人認真討論起為何弱智吧有如此神奇的功效。有人認為原因是弱智吧題目的性質像「腦筋急轉彎」：事實上在今次研究之前，「弱智吧」中的問題就經常被網民拿來測試AI模型，因為這些問題往往像是「IQ題」般帶有陷阱，剛好可以用來測試AI的邏輯能力高低。

例如早前內地的「文心一言」AI模型，就被網友以大量「弱智吧」的帖文來測試，結果也是令人哭笑不得。如以下的問答示例，2023年3月的文心一言還無法理清問題的不合理之處、呆呆地直接回答問題，到後續版本才能正確回答。

網路圖片

👉 Apple AirTag 又建一功！日本網友愛車失竊險被劏靠它極速尋回

有指弱智吧問題如今已成每個新模型發佈前必須要過的一關，被戲稱為「弱智吧Benchmark」。

亦有人認為弱智吧如此「高能」的原因是零一萬物Yi系列這種大模型正常已經以許多資料訓練過，再用知乎、小紅書等一般平台的資料來訓練也沒什麼效果，反而是弱智吧的非傳統文字才對AI產生了訓練效果。

https://twitter.com/9hills/status/1775358963724554410

如果有興趣了解弱智吧資料究竟如何達成這一成就，可以查看該當論文。