Master 就是 AlphaGo 升級版！60 連勝背後看專家怎麼說

由

2019-06-13

2017 年 1 月 4 日晚上，Master 完勝第 59 盤棋的時候，突然發聲自認：「我是 AlphaGo 的黃博士」，Master 之前以橫掃千軍的姿態戰勝幾乎所有中國的圍棋大師，包括「棋聖」聶衛平和柯潔。本文帶來新智元智庫專家白碩、鄧侃的獨家解讀。同時，中國圍棋 AI 的一名開發者也透露了他的看法：Master 的水平略有些讓人失望。新智元還採訪了中國圍棋隊總教練俞斌，他在文中談了自己的看法和理解。這一次，機器可能不再藉用人類經驗，而是憑藉自我對弈和學習戰勝了人類，讓人類認識到另一個「真理」的存在。從某種程度上來說，這是一個新的「紀元」的開啟。

1 月 4 日晚上，之前橫掃圍棋界的神秘大師「Master」忽然發聲，自揭身分，它寫道：我是 AlphaGo 黃博士。

此時，Master 剛剛取得第 59 場不敗紀錄，將對戰人類棋手的紀錄變為 59：0。之前，人們的猜測是Master 在完成 60 場比賽後，會隱退或者發聲。但是，沒有人想到，在 59 場的時候，Master 自己表明了身分。

官方聲明：

Master 已經在線上平台上接連戰勝了聶衛平、柯潔、樸廷桓、唐韋星、範廷鈺、王古力、周俊勳和黃雲嵩等多位圍棋高手。

戰勝「棋聖」，黃博士是誰？

2017 年下午 3 點 04 分，聶衛平執白三又四分之一子之差負於 Master，Master 取得第 54 勝！

聶衛平在圍棋圈有「棋聖」之稱，只是這次，他也拿 Master 沒辦法。對弈結束後，Master 用繁體字打出了「謝謝聶老師」的消息。這個時候，其實 Master 的身分已經有所暗示了。後來 Master 所說的「黃博士」，指的是黃士傑博士。黃博士是台灣人。

如果大家有看 3 月份李世乭與 AlphaGo 對奕的話，應該會注意到在李世乭對面有個將 AlphaGo 的棋步下到棋盤，並且將李世乭的棋步再輸到電腦上的人。這位就是 Google DeepMind 的資深研究員，也是 AlphaGo 的主要程式開發者、台灣出身的黃士傑博士。

▲ 黃士傑（前左）在替 AlphaGo 執子。

黃士傑博士畢業於台灣師範大學，博士論文就是以「應用於電腦圍棋之蒙地卡羅樹狀搜尋演算法的新啟發式演算法」，本身也是業餘六段的圍棋棋手。

之前，黃士傑在接受 Engadget 的採訪時曾說，如果再給 AlphaGo 一年半載的話，說不定李世乭真的就是史上唯一贏過 AlphaGo 一場的人了……

果然，半載之後，我們看到令人嘆服的結果。

Master 的技術沒有想像得那麼好？

對於此次掀起風暴的 Master，新智元智庫專家白碩評價說：

第一，並不意外。如果世界上還有另外一個團隊達到這樣的水平反而是意外。

第二，又有進步。現在的 AlphaGo 水平比去年戰勝李世乭的時候發揮更穩定、對人類棋手更有啟發性，對人類觀眾更有觀賞性，導致人類對棋理的認識正在醞釀重大的突破。

第三，還有潛力。按現在勢頭發展，基於對弈棋譜的深度學習和左右互搏的增強學習，正在形成良性互動的局面，但願這一階段不要太快結束。

第四，除了不斷增強對弈能力外，讓機器以人類能理解的方式講述其棋路，以全新的體驗變革人類傳授和學習圍棋的方式，其意義不亞於戰勝人類。

新智元問及其他的機器包括國內的一些圍棋 AI 是否有機會超越 Master 呢？是否需要重大演算法突破才能破解 Master 的時間積累優勢？

白碩說：「我知道有人在做。如果能大幅提高演算法的效率，就意味著在同樣時間內可以遍歷更多有意義的變化，增強學習會做得越好。個人判斷，演算法上的優化仍有空間，趕超仍有機會。未來機器之間的對弈會是新的看點。」

然而，也有專業人士表示有些失望。一名要求匿名的中國某大型網路公司 AI 開發者對新智元表示，Master 橫掃人類棋手毫不意外，但是對過程有點失望，Master 的技術沒有想像得那麼好，畢竟去年 7 月份 Aja Huang 在一次演講中透露可以讓頂尖棋手 2 子，半年過去了，看不出一定能讓 2 子。也許這並不是最新版。

棋風奔放怪異，因為沒有學習過人類棋譜？

在 DeepMind 官方宣布之前，「Master」的身分激發了多方猜測，有不少人認為這就是 AlphaGo 的升級版，但與後者不同的是「Master」的招法極其奔放，推翻了很多人類棋手常走的定式，棋風與去年 3 月的 AlphaGo 大不相同。

值得注意的是，DeepMind 公司創始人 Hassabis 曾在一次採訪中透露，他們正在嘗試訓練一個沒有學習過人類棋譜的人工智慧，而這可能就是 Master 和 AlphaGo 不同的原因。

CMU 博士鄧侃對新智元表示：

3 月份 AlphaGo 與李世乭對決第一盤，取得勝利後，就說明演算法已經超越人類頂級高手。接下去的幾盤，AlphaGo 贏了，這是預料之中。輸了一盤，反倒有點奇怪。因為演算法只會越變越強大。

隨著訓練越來越強化，AlphaGo 的棋藝越來越精緻，這是自然而然的趨勢。戰勝所有人類高手，只不過是時間的問題。但是看不出（現在的）AlphaGo 的演算法，有本質突破。至少沒有讀到 DeepMind 在這個領域的新論文。

AlphaGo 系統中，有 Monte Carlo tree search（蒙地卡羅樹狀搜尋演算法），不妨把它理解為左右手互博，互博時間越長，實際上就是把各種可能的對弈方案，統統演練一遍。所以，AlphaGo 的訓練時間越長，它對各種對弈方案的了解就越全面。

在自我對弈中成長起來的新 AlphaGo，可能完全不需要人類棋譜。

被認為與 AlphaGo「必有一戰」的世界第一柯潔，在這次對戰中也敗下陣來，但是柯潔在微博上寫的感想倒是很值得深思。

他寫道：「新的風暴即將來襲。我從 3 月份到現在研究了大半年的圍棋軟體，無數次的理論、實踐，就是想知道電腦到底強在哪裡。昨夜輾轉反側，不想竟一夜難眠，人類數千年的實戰演練進化，電腦卻告訴我們人類全是錯的。我覺得，甚至沒有一個人沾到圍棋真理的邊。但我想說，從現在開始，我們棋手將結合電腦，邁進全新的領域達到全新的境界。」

專訪中國圍棋隊總教練俞斌：慢棋是人類最後的機會，但是懸念不大

在 Master 身分確定後，新智元第一時間聯繫了中國圍棋隊總教練俞斌進行專訪。

新智元：您覺得人類棋手還有機會嗎？

俞斌：基本上沒有。只留有一絲懸念，就是長時間的慢棋，但只是懸念，我判斷慢棋也不行。

新智元：如果下慢棋，人類棋手最後的突破口可能是什麼呢？

俞斌：慢棋人的錯誤會少很多，但能否一爭勝負有懸念。感覺可能性很小。

新智元：之前有人認為，人類棋手以後只和人類比，而機器棋手只會和機器棋手對決了，您認為圍棋最後是這樣嗎？

俞斌：人與人比會，機器與機器比也有，但不會只是這兩種。人與機器、人帶機器，用時、讓子等等，還是會有不少比的類型的。也許會有機器參加的團隊賽等。

新智元：看來機器的加入反而有了更多玩法。那麼您認為機器的出現，看起來像人類的天花板，人類圍棋是否會放下勝負心，真正達到人和人對圍棋本身的享受呢？

俞斌：哲學問題。圍棋是勝負的遊戲。享受的是勝負的樂趣。有人工智慧高手，並不影響享受圍棋的樂趣。沒有勝負而享受圍棋，我理解不了。這是我個人的哲學觀點。

一次橫掃千軍的網絡對戰，Master 的進擊之路

2016 年 12 月 29 日晚上 7 點多，一位名叫「Master」的新手登錄弈城，起初沒有高手搭理，但在戰勝謝爾豪四段、孟泰齡六段、於之瑩五段、韓一洲四段、喬智健四段後這個賬號熱度陡增。這晚 Master 十戰全勝，已註定其出世不凡。

第二天中午「Master」再度現身，在對王昊洋六段、嚴在明三段等職業棋手 4 連勝後，終於引出了南韓第一人樸廷桓九段。重頭戲開始上演，結果也是重量級的，樸廷桓在必敗局面下超時負。此結果在高手中掀波，接著等級分排名第 7 的連笑七段登場挑戰，卻連敗兩場！值得注意的是，緊接著 Master 與帳號為「吻別」的網路棋手交鋒兩次，均以中盤獲勝。弈城網工作人員表示，「吻別」很有可能就是擁有 4 個世界冠軍頭銜的當今世界圍棋第一人柯潔。如果「吻別」真是柯潔，那就意味著 Master 對當今中、韓第一人的戰績是 6：0。

31 日，「Master」又連續戰勝各大挑戰者，其中新科百靈杯冠軍陳耀燁九段也以失敗告終，最後的最後，這位堪比「掃地僧」的神秘高手連續 30 盤不敗，像是在逗大夥玩似的來了句：「今天累了，明天休息一天。」

最終敗在「Master」棋下的有江維杰九段、辜梓豪五段、朴永訓九段、柁嘉熹九段、井山裕太九段、孟泰齡六段、金志錫九段……

連一旁觀戰的柯潔九段都大驚失色：「從來沒見過這樣的招法，圍棋還能這麼下？」為此他感嘆：看 Master 的著法，等於說以前學的圍棋都是錯誤的，原來學棋的時候要被罵的著法現在 Master 都下出來了。同樣的，知乎網友 @趙小康評論，Master 對陣這些圍棋高手，「大多數對局都是中盤取勝，人類數千年時間總結出的定式、大局觀在 Master 面前顯得陳腐可笑。」

2017 年 1 月 3 日 9：30，棋手古力九段按捺不住，最終發出 10 萬元懸賞，獎勵給戰勝 Master 的勇士。但其後又有 4 位頂尖棋手被擊敗……

不過就在 51 場連勝之後，1 月 4 日，「Master」第 52 盤以和棋結束，「Master」的 51 連勝紀錄就此終止。這場比賽中，「Master」挑戰中國圍棋職業選手陳耀燁。「Master」執黑棋、陳耀燁執白棋，30 秒 3 次快棋。不過陳耀燁出現了斷線情況，30 秒沒有落子，系統判定和棋。

今日，「Master」出現以來最受矚目的比賽在 Master 和聶衛平之間進行。年屆 64 歲的中國棋聖和「Master」的比賽也是這個人工智慧程式進行的第 54 局比賽。本局「Master」特意把比賽用時調整為每方 1 分鐘一手，以示對聶衛平的尊敬。

最終本局進行至手，執白的聶衛平以 7 目半的劣勢落敗。本局「Master」在右上角下出犀利的手段，吃掉了聶衛平一塊棋由此確立優勢，並保持到了最後。而隨著棋聖聶衛平落敗，「Master」將自己的不敗紀錄延續至 54 場，中日韓高手無一能在這次「快棋」對決中取勝。

4 日晚，隨著古力敗下陣來，Master 對人類棋手獲得了 60 場不敗的紀錄。

AlphaGo 技術原理

AlphaGo 從 3 月份至今，經過 10 個月的發展，已經有了非常長足的進步，不過要追溯其技術原理，最詳細的還是 3 月份發表在 Nature 的封面論文：Mastering the game of Go with deep neural networks and tree search（透過深度神經網露和樹狀搜尋，學會圍棋遊戲）。

AlphaGo 給圍棋帶來了新方法，它背後主要的方法是 Value Networks（價值網路）和 Policy Networks（策略網路），其中 Value Networks 評估棋盤位置，Policy Networks 選擇下棋步法。這些神經網路模型透過一種新的方法訓練，結合人類專家比賽中學到的監督學習，以及在自己和自己下棋（Self-Play）中學到強化學習。這不需要任何前瞻式的 Lookahead Search，神經網路玩圍棋遊戲的能力，就達到了最先進的蒙地卡羅樹狀搜尋演算法的級別（這種演算法模擬了上千種隨機自己和自己下棋的結果）。我們也引入了一種新搜尋演算法，這種演算法將蒙地卡羅模擬和價值、策略網路結合起來。

透過將 Value Networks、Policy Networks 與樹狀搜尋結合起來，AlphaGo 達到了專業圍棋水準，讓我們看到了希望：在其他看起來無法完成的領域中，AI 也可以達到人類級別的表現！

DeepMind 團隊對圍棋項目的介紹：

（本文由 36Kr 授權轉載；首圖來源：YouTube 截圖）