DeepMind 論文揭示最強 AlphaGo Zero，不靠人類知識進化成長

7 年前

AlphaGo「退役」了，但 DeepMind 探索圍棋並沒有停止。今年 5 月烏鎮大會的「人機對弈」，中國棋手、世界冠軍柯潔九段以 0 比 3 不敵 AlphaGo。隨後 DeepMind 創始人 Hassabis 宣布，AlphaGo 將永久結束競技舞台，不再比賽。同時 Hassbis 表示：「我們計劃在今年稍晚發表最後一篇論文，詳細介紹我們在演算法效率取得的進展，以及應用在其他更領域的可能性。就像第一篇 AlphaGo 論文，我們希望更多開發者接過棒子，利用這些全新的進展開發屬於自己的強大圍棋程式。」

今天，DeepMind 如約在《Nature》發表這篇論文──名為《Mastering the game of Go without human knowledge》（不使用人類知識掌握圍棋），DeepMind 展示了更強大的新版本圍棋程式「AlphaGo Zero」，驗證了即使像圍棋這最具挑戰性的領域，也可以透過純強化學習的方法自我完善達到目的。

摘要：人工智慧的長期目標是透過後天的自主學習（註：tabula rasa，意為「白板」，指所有的知識都是逐漸從感官和經驗而來），在一個具挑戰性的領域創造出超越人類的精通程度學習的演算法。之前，AlphaGo 成為首個戰勝人類圍棋世界冠軍的程式，當時 AlphaGo 透過深層神經網路下決策，並使用人類專家的下棋資料進行監督學習，同時也透過自我對弈強化學習。這篇論文，我們將介紹一種僅基於強化學習的演算法，而不使用人類的資料、指導或規則以外的領域知識。AlphaGo 成為自己的老師，這神經網路訓練用於預測 AlphaGo 自己的落子選擇，提高了樹搜尋的強度，使落子品質更高，具更強的自我對弈更新能力。從一塊白板開始，我們的新程式 AlphaGo Zero 表現驚人，並以 100：0 擊敗了之前版本的 AlphaGo。

內容目錄 隱藏

1 全新強化學習演算法：無需任何人類指導

2 技術細節

全新強化學習演算法：無需任何人類指導

這篇論文的最大亮點，在於無需任何人類指導，透過全新的強化學習方式成為自己的老師，在圍棋這最具挑戰性的領域達到超過人類的精通程度。相比之前使用人類對弈資料，此演算法訓練時間更短，僅用 3 天就達到擊敗李世乭的 AlphaGo Lee 水準，21 天達到之前擊敗柯潔的 AlphaGo Master 水準。

3 天內──就是 AlphaGo Zero 擊敗 AlphaGo Lee 之前，曾進行 490 萬次自我對弈練習。相比之下，AlphaGo Lee 的訓練時間達數月之久。AlphaGo Zero 不僅發現人類數千年來已有的許多圍棋策略，還設計了人類玩家未知的策略。

據 DeepMind 部落格介紹，AlphaGo Zero 採用新的強化學習方法，從一個不知道圍棋遊戲規則的神經網路開始，然後透過將這個神經網路與強大的搜尋演算法結合，就開始自我對弈了。訓練過程中，神經網路更新和調整，並用於預測下一步落子和最終的輸贏。

更新後的神經網路再度與搜尋演算法組合，過程不斷重複，建立出一個新的、更強大版本的 AlphaGo Zero。每次更新，系統的效能和自我對弈的品質均能部分提高。「日拱一卒，功不唐捐」，最終的神經網路越來越精確，AlphaGo Zero 也變得更強。

Alpha Zero 與之前版本有如下不同：

AlphaGo Zero 只使用棋盤上的黑子和白子輸入，之前版本 AlphaGo 的輸入均包含部分人工特徵。
AlphaGo Zero 使用一個神經網路而不是之前的兩個。以前版本的 AlphaGo 使用一個「策略網路」選落子位置，並使用另一個「價值網路」預測遊戲的輸贏結果。而 AlphaGo Zero 下一步落子的位置和輸贏評估在同一個神經網路進行，進而使其更準確訓練和評估。
AlphaGo Zero 無需隨機推演（Rollout）──這是一種在其他圍棋程式廣泛用於勝負的快速隨機策略，透過比對確定每手之後輸贏的機率選擇最佳落子位置，相反地，它依賴高品質的神經網路來評估落子位置。

上述差異均有助提高系統的效能和通用性，但最關鍵的仍是演算法的改進，不僅使 AlphaGo Zero 更強大，功耗上也更高效。

▲ AlphaGo 不同版本所需的 GPU / TPU 資源。

技術細節

新方法使用一個具參數 θ 的深層神經網路 fθ。這個神經網路將棋子的位置和歷史狀態 s 為輸入，並輸出下一步落子位置的概率，用 (p, v) = fθ(s) 表示。落子位置概率向量 p 代表每步棋（包括不應手）的概率，數值 v 是一個純量估值，代表棋手下在目前位置 s 的獲勝機率。

AlphaGo Zero 的神經網路透過新的自我對弈資料訓練，在每個位置 s，神經網路 fθ 都會進行蒙地卡羅樹（MCTS）搜尋，得出每步落子的機率 π。落子概率通常優於初始的落子概率向量 p，在自我對弈過程中，程式透過基於蒙地卡羅樹的策略來選下一步，並使用獲勝者 z 為價值樣本，可視為一個強有力的評估策略作業。過程中神經網路參數不斷更新，落子概率和價值 (p,v)= fθ(s) 也越來越接近改善後的搜尋概率和自我對弈勝者 (π, z)，這些新的參數也會用於下次自我對弈更新以增強搜尋結果，下圖即為自我訓練的流程圖。

▲ AlphaGo Zero 自我對弈訓練的流程示意圖。

雖然這技術還算早期階段，但 AlphaGo Zero 的突破使我們未來面對人類一些重大挑戰（如蛋白質摺疊、減少能源消耗、搜尋革命性的新材料等）充滿信心。眾所周知，深度學習需要大量資料，在很多情況下，獲得大量人類資料的成本過於高昂，甚至根本難以獲得。如果將該技術應用到其他問題，有可能對我們的生活產生根本性的影響。

AlphaGo Zero: Learning from scratch

（本文由雷鋒網授權轉載；首圖來源：影片截圖）