馬斯克激讚 深圳17歲高中生揚威AI界 領銜創「注意力殘差」技術
中國人工智能公司月之暗面(Moonshot AI)的Kimi團隊近日發表一篇論文,獲馬斯克(Elon Musk)大讚「Kimi的工作令人印象深刻」。公開資料顯示,這篇論文的3位並列第一作者中,其中一名是深圳國際學校高三學生陳廣宇(Guangyu Chen),今年僅17歲。
月之暗面是2023年3月成立的AI企業,由清華校友楊植麟等創立,核心產品Kimi大模型在國際榜單上多次挑戰GPT-4/Claude等大模型,被譽為中國「AI四小虎」之一。本次Kimi團隊發佈的論文成果之所以能獲馬斯克關注,是因為Kimi團隊提出了一種叫「注意力殘差」(Attention Residuals)的新技術。
簡單來説就是過去訓練AI模型,常用的是「殘差連接」,就像搬東西上樓,每爬一層,都把之前的東西帶上,但層數一多東西越多,重要資訊反而會被淹沒了。而Kimi團隊的「注意力殘差」,則是每上一層樓,可以挑出當下有用的東西,不需要背上所有資訊。這樣訓練效率可直接提升25%,推理延遲只增加不到2%。
17歲少年接觸AI研究僅一年
值得注意的是,這篇技術技術論文的附錄顯示,17歲深圳少年陳廣宇排在作者名單第一位。Guangyu Chen(陳廣宇)、Yu Zhang(張宇)、Jianlin Su(蘇劍林)前三位作者均被標注為「同等貢獻」(Equal contribution),其餘34位作者姓名後則未見這一標注。
與陳廣宇並列共同一作的另外兩人,分別是張宇和蘇劍林。張宇是Kimi高效模型架構的重要研究者,蘇劍林則是大模型領域知名研究者,其提出的旋轉位置編碼(RoPE)已成為主流大模型廣泛採用的位置編碼方法之一。
據深圳特區報報道,陳廣宇真正深入接觸人工智能研究,是近一年的事。最初,他通過研讀論文、追蹤GitHub開源專案等方式補上基礎認知。後來,他因在特推上分享對技術博客的反思,引起一家矽谷AI初創公司CEO關注,並在暑假期間前往美國實習七周,回國後於去年11月到Kimi團隊實習,直到參與完成了這篇論文。
對於馬斯克點贊帶來的關注,陳廣宇回應時強調,不要「造神」,希望外界少寫個人、多寫技術和團隊,不要為了熱點突出個人,這項工作是團隊共同完成的成果。