柯潔說：全力以赴下棋，之後不再與 AI 對弈

7 年前

5 月 23 日 14 點 52 分，一盤圍棋在烏鎮網際網路國際會展中心收官，黑子以 1/4 子輸給白子。

這是 AlphaGo 和柯潔的第一場正式比賽，猜先後，柯潔先手執黑，AlphaGo 執白，代 AlphaGo 執棋的是 DeepMind 資深研究員黃士傑博士。

與之前 AlphaGo 在網上化身 Master 連續 60 場不敗的快棋不同，這一場比賽採用傳統規則，每人有 3 小時時間。

在這場比賽終盤，柯潔的剩餘時間僅 13 分鐘，AlphaGo 的剩餘時間卻是 1 小時 29 分。但最終結束時柯潔僅以 1/4 子小負，並不像之前許多人悲觀預測的「慘敗」。

對一場被極度關注的賽事，柯潔在比賽剛開始時的表現卻顯得輕鬆。

他繫一條天藍色領帶，正逢烏鎮梅雨時節，這條領帶讓他看起來有一點小清新。雖然還不到 20 歲，但比賽中的柯潔總讓人感覺不到他其實還是個少年。

柯潔和 Alpha Go 其實有一些相似，就是他們都很擅長學習。在第八手棋時，柯潔主動「點三三」。

「三三」是吳清源的名局，今年 1 月 AlphaGo 化名 Master 瘋狂對戰時常用這一招開局，現場解說的華以剛說明這種下法的時候這麼說：太神奇了，也評論不出是好棋還是壞棋，因為根本就沒見過有人這麼下。柯潔很大膽的學了這招，並反用在 AlphaGo 身上。

儘管最後以很小的差距輸給 AlphaGo，柯潔還是認為 AlphaGo 是個太厲害的棋手。這次 AlphaGo 跟上次人機大戰版本不太一樣，上次還像點人，但這次就完全不像了。

如果有一件事是柯潔從 AlphaGo 身上學到的，那就是：沒什麼棋無法下。

第一場比賽結束後的柯潔稍顯落寞，甚至還苦笑了一下，其實他很早就知道自己要輸了。但是他說後兩場仍會全力以赴，因為這將是他和人工智慧的最後兩場比賽了，此後，他只和人類對弈。

內容目錄 隱藏

1 為什麼是今年，AlphaGo 現在能戰勝人類？

2 那麼，AlphaGo 是如何贏得比賽的？

3 成為最頂尖的圍棋高手，然後呢？

4 延伸閱讀：

為什麼是今年，AlphaGo 現在能戰勝人類？

深藍在西洋棋領域戰勝卡斯帕羅夫已過了 20 年，為什麼 AlphaGo 在這麼多年後才總算有望戰勝人類？

其中一個重要的原因是，西洋棋的所有可能性只有 10 的 46 次方，而圍棋的可能性是 10 的 170 次方。

在深藍獲勝 20 年之後電腦領域幾乎沒有停滯過的摩爾定律，為 AlphaGo 的出現提供了演算法基礎。

另一方面，人工智慧演算法在過去 20 年中也出現變化。最典型的是從雙層神經網路進化到多層神經網路，而在反向傳遞的基礎上多層神經網路的自主學習實現了可能。

簡單來說，即便 1997 年人類就已做出AlphaGo使用的蒙特卡羅樹搜尋，也不足以製造出能運算的電腦。

早在 1952 年，電腦專家圖靈就編寫了世界上第一個可以下西洋棋的電腦程式。但當時的電腦算力不足以支撐這個程式，圖靈用紙和筆模擬驗算，半小時下一步與同事對弈。

算力的改進為 AlphaGo 提供了比之前所有 AI 更快的思考速度，算法的改進則為 AlphaGo 提供了比之前任何 AI 都先進的思考方式。

兩者共同實現的就是讓 AlphaGo 在正常圍棋賽的時間內，計算出下一步落子位置。這才是讓 AlphaGo 在今天，此刻有可能戰勝人類的原因。

AlphaGo 在第一局比賽中，剩餘的時間很長，但贏的目數不多。AlphaGo 現有的演算法依然有改進的空間。這也許是因為之前 AlphaGo 都在下快棋，還沒有習慣「多思考一會兒」。

賽後舉行的記者會上，柯潔在回答提問時表示：「要讓我自己當嘉賓點評的話，我要說 AlphaGo 下得很好，有很多地方值得我們棋手去學習。我也深受 AlphaGo 的影響，沒有什麼其實是不可以下的，可以大量去創新，開拓自己的思維，是很值得我們去學習的。」

那麼，AlphaGo 是如何贏得比賽的？

AlphaGo 的基礎原理很多地方已經講過了──既然圍棋的可能性有 10 的 170 次方之多，那麼就不可能透過窮舉法來預測對手的每一步。

但是，現實中的圍棋對弈也不需要這樣預測所有可能，只需要綜合圍棋的一般下法、經典的棋譜、對手的下棋風格，猜出「此刻對手打算怎麼走」就可以剋制對方了。

按照先前的介紹，AlphaGo 抓取棋局資訊後，會根據策略網路（policy network）探索哪個位置同時具備高潛在價值和高可能性，進而決定最佳落子位置。

在規格的搜尋時間結束時，模擬過程中系統最頻繁考察的位置將成為 AlphaGo 的最終選擇。經過先期探索和過程中對最佳落子的不斷揣摩後，AlphaGo 的搜尋就能在其計算能力上加入近似人類的直覺判斷。

這套價值網路能近乎準確地判斷出一顆棋子對周圍環境的影響。一個棋子的價值很難衡量，但是如果能把棋盤上所有棋子當成整體來考慮時，就有掌控大局、把局部影響力轉換為全局優勢的能力。

正是這種全局觀讓柯潔輸得特別「沒脾氣」，柯潔說這是一種「想發力卻無處發力的無力感」。

在圍棋這種人類發明的博弈遊戲中，人工智慧有兩個先天優勢是人類無法比擬的：

人工智慧可以背下所有的棋譜和看完對手的所有比賽；

人工智慧沒有受正統圍棋比賽的「套路」影響，下法上更出其不意。

但是隨著 AlphaGo 不斷公開比賽，第二點優勢會逐漸消失。柯潔在這場比賽中展現了針對人工智慧棋手慣用下法的一些策略，實際效果不俗，讓這場比賽看起來幾乎「勢均力敵」。

而很多人注意到，這一局比賽中「AlphaGo 判斷自己勝定後，在小官子階段有退讓」，這不一定是 AlphaGo 人性化了，而是 AlphaGo 在「學習」過程中，連人類這種下棋「禮儀」也學走了。

這有可能，反而是戰勝 AlphaGo 的突破點。

成為最頂尖的圍棋高手，然後呢？

柯潔這次三番棋後不會再和 AI 對弈，那 AI 呢？

從第一次人機大戰到第二次，AlphaGo 的變化很大。

最初是學習大量棋譜，從中搜尋規律和經驗，更深度的學習後，新一代 AlphaGo 逐漸擺脫人類思維，透過無數次自我對弈進行勝率最佳化。棋譜的數量有限，但是透過自我對弈，AlphaGo 卻能得出更多新策略，就是常被大家認為「什麼都敢下」的棋風。

這也是為什麼 AlphaGo 被柯潔形容「越來越不像人」。AlphaGo 最初的學習參數是以人類棋譜為基礎，而新版 AlphaGo 則增加強化學習的比重，也就是訓練的資料大多透過自我對弈產生。如此更新迭代、迴圈往返，價值判斷上就會越來越形成自己的風格。

可以說正是戰勝自己千萬次，AlphaGo 才能在棋盤上戰勝柯潔一次，而柯潔就是人工智慧在棋盤上能遇到的終極敵人。

學習方式越來越接近人腦，這確實達到 DeepMind 當初想用演算法提煉智慧的目的。

除此之外，新版 AlphaGo 在計算能力上的提升也很巨大。DeepMind CEO Demis Hassabis 在賽後記者會上告訴大家，目前的 AlphaGo 透過雲端單 TPU 執行，TPU 是專門為機器學習而設計的處理器。與去年 3 月與李世乭比賽時的版本相比，新一代 AlphaGo 的計算能耗僅為過去的十分之一。

如果這次真的全勝，AlphaGo 的下一個目標會是什麼？Demis 稱要把懸念留在不久後揭曉新一代 AlphaGo 的時候。

但三番棋才剛開始，AlphaGo 距離自己完勝人類還要經歷 5 月 25 日和 27 日兩場。雖然大多數預測都認為反轉局勢機會渺茫，但是如果能在比賽中摸索出 AlphaGo 一些套路，也許可以在剩餘兩場「掙扎」絕處逢生。

棋手若還能穩坐，旁人又何必多言。加油呀，代表人類的最終 Boss。

（本文由 PingWest 授權轉載；首圖來源：Flickr/Jaro Larnos CC BY 2.0）