毋須指導自行學習 新版AlphaGo Zero完勝舊版 自封世界最強棋王

撰文:歐敬洛
出版:更新:

Google專門開發人工智能的「DeepMind」團隊公布,他們成功研發出AlphaGo的新版本「AlphaGo Zero」。AlphaGo Zero無需人類協助,就能自行學習由不懂圍棋到精通,甚至擊敗舊版本的AlphaGo,為人工智能發展開拓新里程。

在擊敗韓國「不敗少年」李石世後,AlphaGo在今年5月再擊敗中國棋王柯潔。(視覺中國)

AlphaGo擊敗棋王李世石柯潔惹來全球觸目,雖然舊版本AlphaGo已退役,但Google在人工智能的開發步伐未有停止。DeepMind團隊在18日於《自然》期刊發表文章,表示他們已製作出比AlphaGo更強勁的的新版本「AlphaGo Zero」。

更多【AlphaGo對弈柯潔】的文章

僅靠下棋規則即能自我精通

AlphaGo Zero與舊版本的最大不同,是無需人類協助。過去AlphaGo要自我學習首先需要人類給予協助,如AlphaGo背後有10萬套棋譜參考,才能「讓自己無敵」。但AlphaGo Zero只需設下圍棋規則,就能由不懂圍棋到精通。

報告指AlphaGo Zero在花了3天自行對局500萬次後,就已掌握一身好棋藝在模擬戰中擊敗李世石的棋譜。在花40天學習後,就能以九成勝率的壓倒性姿態擊倒舊版本的AlphaGo。

AlphaGo在去年3月大戰李世石,以5比1戰勝韓國棋王,為「人機大戰」拉開序幕。(視覺中國)

擺脫人類知識枷鎖 不用參考人類自行學習

DeepMind稱他們創造了世界歷史上「最強的棋士」,AlphaGo Zero研究首席工程師David Sliver表示:「AlphaGo Zero脫離了人類的知識枷鎖,能從白紙以自己方式學習,因此比較版本更強。」他表示AlphaGo Zero在學習時會用上各種未曾看過的新棋譜,不停嘗試和失敗:「當在與人類棋譜對戰局時,程式最初會模仿人類,但很快就自行發展出另一套下棋方式,有如受人類棋譜『啟發』了一樣。」

除程式的進步外,AlphaGo Zero在硬件上也與舊版本不同。新版本只需使用4個TPU(Google特製的AI處理器),舊版本卻需要48個TPU,意味新版本更省電卻能做到更強的運算。

更多【AlphaGo對弈李世石】的文章

未來新發展 AI哪天可超越人類?

新研究成果的最重要部份,是「脫離了人類知識枷鎖」。英國廣播公司(BBC)述消息報道,DeepMind團隊正準備把技術應用在其他範疇,如新藥物開發和新物料研發方面。希望人類反過來「被AI啟發」,以從未嘗試過的方法研發新科技。

不過BBC亦表示「得提防AI過度發展造成可能出現的道德困境」,特別是研發者是Google這樣的跨國大企業。當然至今天為止要說AlphaGo Zero會變得過份聰明,甚至威脅人類是言之過早,但按目前發展方向,未來這都會成為人類必需面對的問題。

(THE VERGE/BBC/日本放送協會)