柯潔為何說「輸得沒脾氣」？8 個問題解讀人機大戰第一局

由

2019-06-13

經過 4 個多小時對弈，柯潔以 1/4 子之差敗給了AlphaGo。比賽後，曾參與訓練 AlphaGo 的棋手樊麾，與九段常昊一起回顧整個對弈過程。柯潔也與 Deepmind 創始人 Demis Hassabis，以及 AlphaGo 的主程式設計師 David Silver 一同接受媒體採訪，談及對比賽的感想。

Perspective Box 透視箱

內容目錄 隱藏

6 AlphaGo 完全不依賴棋手訓練嗎？

7 戰勝位於圍棋頂端的柯潔後，AlphaGo 是否就此隱退？

8 技術細節？多少個 TPU？單機版？

9 柯潔再也不與人工智慧比了？

10 那如果人類棋手不想和 AlphaGo 下了怎麼辦？

11 延伸閱讀：

AlphaGo 注重整體局勢的發展

樊麾提到，在經過年初 Master 的 60 局比賽後，很多棋手也在嘗試用點三三這種下法。而柯潔也模仿了這種開局。

常昊在分析中表示，對整個棋局印象最深的，是白棋在開局後不久第 24 手的大飛，這顯出 AlphaGo 更更注重中央勢力的發展，對厚薄和棋局的發展有更多注重，因為這一步在未來棋局中的效率會更高。

AlphaGo 另一個令人印象深刻的也是在開局後不久，在棋局的左上方，下了一步斷。在斷之前，黑棋（柯潔）看起來很厚，但之後白棋（AlphaGo）也變厚了。常昊稱，「這是走一步後手，但卻留下了很多餘味。」

柯潔為何說「輸得沒脾氣」？8 個問題解讀人機大戰第一局

▲ 白子第 24 手「大飛」，第 54 手「斷」。

「這步帶給我們新想法，有些棋不是無法下，是下了以後會有新思路。它提供一種思路創新，我們可以共同研究，為圍棋的下法帶來更多發展。」

雖然被圍住的 4 個子看起來已經沒救了，但 AlphaGo 依然更利用這 4 子，它會想把棋盤上所有子的價值都利用到。

柯潔：輸得沒脾氣

柯潔在回顧比賽時也對第 54 手的斷表示肯定。他稱，「很震驚，這在人類的下法中是無法有的」。在斷之後，它把自己的腳步實地化，變得更厚，一石二鳥。

柯潔感歎道，「實在下得太出色了，輸得沒什麼脾氣。」

Demis Hassabis 在賽後表示，這是一場非常精彩的比賽，他非常尊敬柯潔，這一戰的表現令人佩服。他認為柯潔表現出頑強與精彩的實力，在賽前也做了很多戰前準備。

「柯潔同時做了戰略和戰術的準備，比如點三三（這種策略），這是他從年初 Master 的 60 場比賽中的總結。他有自己的戰略，有好幾手都非常漂亮。第 24 手是全盤皆活的一手。接下來還有很多場比賽，我非常尊敬柯潔，讓 AlphaGo 也必須全力以赴對付你。」

比賽的結果雖然出來了，但外界對 AlphaGo 和柯潔的好奇心沒有滿足。在採訪中，雙方也回答了很多大家關心的問題。

賽後柯潔為什麼笑？

柯潔稱，這是苦笑，不是很開心的笑。

「很早就知道自己會輸。AlphaGo 的每一步棋都是均速的，到最後時已經知道會輸多少了。」

對於自己的評價，柯潔稱，「AlphaGo 下得很精彩，但我也盡了全力。它下得太好了，有很多地方值得棋手學習和探索。它對圍棋的理念帶來了衝擊，改變我們最初對圍棋的下法，沒什麼棋是無法下的。對 AlphaGo 的想法也有改變，我們可以大膽創新，開拓自己的思維，可以自由地下棋。今天也是大膽地開拓了自己的思維。」

柯潔還曾想用 AlphaGo 的策略來對付它。「我的印象中 AlphaGo 非常貪戀實地，比如點三三的方法，今天我也使用這種策略。但這意圖被 AlphaGo 打敗了，完全進入它的調子中。它真的下得非常好。」

柯潔認為，AlphaGo 的棋與去年完全是兩個人。第一次時它很接近人，但現在越來越像「神」。

AlphaGo 有弱點嗎？

柯潔認為，弱點暫時沒看見。以前還是有弱點，但現在 AlphaGo 對圍棋的理解與判斷已經遠勝於人類了，贏的話只能找一些 bug 出來。

但他同時說，「對自己永遠要有信心。」

Hassabis 稱，李世乭後 AlphaGo 再次參加比賽，就是希望棋手們能找到 AlphaGo 的弱點，找到它自己對弈時不知道的缺陷。

「李世乭當時在第 4 局找到了缺口，後來我們改善了程式。當然還會有新領域，我們和 AlphaGo 都不知道，所以才會參加比賽。」

David Silver 解釋，AlphaGo 的做法是將獲勝機率最大化，而不是接近式贏得比賽。它會搜尋一些確定的路線，實現低風險的獲勝機會。這也是取捨問題，要決定如何擴大勝利的機率。當然，它還有一些其他目標，比如將勝利的步伐邁得更大，如果重點只放在獲勝，它可能會降低風險，即使很小的風險也會關注。

對圍棋的影響？

Hassabis 認為，圍棋是一個非常有意思的主題，有無限的可能性。透過比賽，可以改進對圍棋的理解，這是人類可以用的工具，讓偉大的棋手發現更多圍棋的奧妙。

AlphaGo 完全不依賴棋手訓練嗎？

David Silver 稱，AlphaGo 一開始就是跟人類學習的，透過自身對弈來學習時，也必須跟人類對弈才行，因為與頂尖棋手對決才能改善。新版本是更多與自身對弈學習，實現自我搜尋，對人類資料的依賴更小了。而 DeepMind 的目標是讓它的規則超越圍棋，應用到其他領域。

戰勝位於圍棋頂端的柯潔後，AlphaGo 是否就此隱退？

對這問題，Hassabis 沒有正面回應，只是表示，本週稍晚會宣布下一步怎麼做。像第一版在學術期刊上發表技術細節一樣，他們以後也會發表更多新版本的細節，會披露更多技術，讓其他團隊與實驗室做自己的版本。

技術細節？多少個 TPU？單機版？

這次比賽的 AlphaGo 是新版本，它改善了新演算法，主要進步是計算量少了十倍，自我對弈更強。

Hassabis 稱，在比賽中程式是在一台單一機器上運作，這與去年不一樣，當時是分散式的。這次有更強大的演算法，運作起來更簡單也更好，速度更快。

Hassabis 表示，計算力可以「在 Google 雲中獲得，用的是 TPU，十個處理單位，少了十倍的計算量」。簡單點說，這次的 AlphaGo 是單機版。

柯潔再也不與人工智慧比了？

賽前，柯潔發微博表示，這次比賽是最後 3 場與人工智慧的比賽。賽後，他再次確認這個決定。

「考慮了很久，AlphaGo 進步太快了，每一步都是巨大的進步，在以後會更加完美，而人與它的差距不是靠自己的努力就能去彌補的。我相信科技的力量，未來是人工智慧的。對圍棋來說，我還是喜歡和人來下，因為機器與人的差距會越來越大，人贏的概率會越來越小，這樣下棋太痛苦了，一盤都贏不了。」

他表示，以後也不會訓練機器了，這是最後的三盤棋。

「希望以後還是下人類的棋，對軟體把它當作一個老師，一個學習的對象去看待。」

他表示，對自己的表現也有點不滿意，覺得自己可以做得更好，但有時候無論怎麼努力都無法做到。所以這最後一次，他希望不留遺憾，下出讓自己滿意的棋局。

「令 AlphaGo 的主機發燙也好。」

那如果人類棋手不想和 AlphaGo 下了怎麼辦？

Hassabis 表示，從他們的角度來說，想要 AlphaGo 作為圍棋工具，能為人類所用，所以會有架構知識的分享，讓大家知道它。也希望它能走進尋常百姓家，在醫學與科學找到應用場域。

（本文由雷鋒網授權轉載；首圖來源：達志影像）