AlphaGo「退役」了,但 DeepMind 探索圍棋並沒有停止。今年 5 月烏鎮大會的「人機對弈」,中國棋手、世界冠軍柯潔九段以 0 比 3 不敵 AlphaGo。隨後 DeepMind 創始人 Hassabis 宣布,AlphaGo 將永久結束競技舞台,不再比賽。同時 Hassbis 表示:「我們計劃在今年稍晚發表最後一篇論文,詳細介紹我們在演算法效率取得的進展,以及應用在其他更領域的可能性。就像第一篇 AlphaGo 論文,我們希望更多開發者接過棒子,利用這些全新的進展開發屬於自己的強大圍棋程式。」
今天,DeepMind 如約在《Nature》發表這篇論文──名為《Mastering the game of Go without human knowledge》(不使用人類知識掌握圍棋),DeepMind 展示了更強大的新版本圍棋程式「AlphaGo Zero」,驗證了即使像圍棋這最具挑戰性的領域,也可以透過純強化學習的方法自我完善達到目的。
摘要:人工智慧的長期目標是透過後天的自主學習(註:tabula rasa,意為「白板」,指所有的知識都是逐漸從感官和經驗而來),在一個具挑戰性的領域創造出超越人類的精通程度學習的演算法。之前,AlphaGo 成為首個戰勝人類圍棋世界冠軍的程式,當時 AlphaGo 透過深層神經網路下決策,並使用人類專家的下棋資料進行監督學習,同時也透過自我對弈強化學習。這篇論文,我們將介紹一種僅基於強化學習的演算法,而不使用人類的資料、指導或規則以外的領域知識。AlphaGo 成為自己的老師,這神經網路訓練用於預測 AlphaGo 自己的落子選擇,提高了樹搜尋的強度,使落子品質更高,具更強的自我對弈更新能力。從一塊白板開始,我們的新程式 AlphaGo Zero 表現驚人,並以 100:0 擊敗了之前版本的 AlphaGo。
全新強化學習演算法:無需任何人類指導
這篇論文的最大亮點,在於無需任何人類指導,透過全新的強化學習方式成為自己的老師,在圍棋這最具挑戰性的領域達到超過人類的精通程度。相比之前使用人類對弈資料,此演算法訓練時間更短,僅用 3 天就達到擊敗李世乭的 AlphaGo Lee 水準,21 天達到之前擊敗柯潔的 AlphaGo Master 水準。
3 天內──就是 AlphaGo Zero 擊敗 AlphaGo Lee 之前,曾進行 490 萬次自我對弈練習。 相比之下,AlphaGo Lee 的訓練時間達數月之久。AlphaGo Zero 不僅發現人類數千年來已有的許多圍棋策略,還設計了人類玩家未知的策略。
據 DeepMind 部落格介紹,AlphaGo Zero 採用新的強化學習方法,從一個不知道圍棋遊戲規則的神經網路開始,然後透過將這個神經網路與強大的搜尋演算法結合,就開始自我對弈了。訓練過程中,神經網路更新和調整,並用於預測下一步落子和最終的輸贏。
更新後的神經網路再度與搜尋演算法組合,過程不斷重複,建立出一個新的、更強大版本的 AlphaGo Zero。每次更新,系統的效能和自我對弈的品質均能部分提高。「日拱一卒,功不唐捐」,最終的神經網路越來越精確,AlphaGo Zero 也變得更強。
Alpha Zero 與之前版本有如下不同:
- AlphaGo Zero 只使用棋盤上的黑子和白子輸入,之前版本 AlphaGo 的輸入均包含部分人工特徵。
- AlphaGo Zero 使用一個神經網路而不是之前的兩個。以前版本的 AlphaGo 使用一個「策略網路」選落子位置,並使用另一個「價值網路」預測遊戲的輸贏結果。而 AlphaGo Zero 下一步落子的位置和輸贏評估在同一個神經網路進行,進而使其更準確訓練和評估。
- AlphaGo Zero 無需隨機推演(Rollout)──這是一種在其他圍棋程式廣泛用於勝負的快速隨機策略,透過比對確定每手之後輸贏的機率選擇最佳落子位置,相反地,它依賴高品質的神經網路來評估落子位置。
上述差異均有助提高系統的效能和通用性,但最關鍵的仍是演算法的改進,不僅使 AlphaGo Zero 更強大,功耗上也更高效。
▲ AlphaGo 不同版本所需的 GPU / TPU 資源。
技術細節
新方法使用一個具參數 θ 的深層神經網路 fθ。這個神經網路將棋子的位置和歷史狀態 s 為輸入,並輸出下一步落子位置的概率,用 (p, v) = fθ(s) 表示。落子位置概率向量 p 代表每步棋(包括不應手)的概率,數值 v 是一個純量估值,代表棋手下在目前位置 s 的獲勝機率。
AlphaGo Zero 的神經網路透過新的自我對弈資料訓練,在每個位置 s,神經網路 fθ 都會進行蒙地卡羅樹(MCTS)搜尋,得出每步落子的機率 π。落子概率通常優於初始的落子概率向量 p,在自我對弈過程中,程式透過基於蒙地卡羅樹的策略來選下一步,並使用獲勝者 z 為價值樣本,可視為一個強有力的評估策略作業。過程中神經網路參數不斷更新,落子概率和價值 (p,v)= fθ(s) 也越來越接近改善後的搜尋概率和自我對弈勝者 (π, z),這些新的參數也會用於下次自我對弈更新以增強搜尋結果,下圖即為自我訓練的流程圖。
▲ AlphaGo Zero 自我對弈訓練的流程示意圖。
雖然這技術還算早期階段,但 AlphaGo Zero 的突破使我們未來面對人類一些重大挑戰(如蛋白質摺疊、減少能源消耗、搜尋革命性的新材料等)充滿信心。眾所周知,深度學習需要大量資料,在很多情況下,獲得大量人類資料的成本過於高昂,甚至根本難以獲得。如果將該技術應用到其他問題,有可能對我們的生活產生根本性的影響。
(本文由 雷鋒網 授權轉載;首圖來源:影片截圖)