擊敗了李世乭的圍棋人工智慧「AlphaGo」究竟是什麼?

45

如果不先稍微了解 AlphaGo 背後的神經網路系統,你很容易以為 AlphaGo 在對局開始前跟李世乭站在同一起跑線上。

做為一種人工智慧的 AlphaGo,和 IBM 在上個世紀打敗西洋棋大師卡斯帕羅夫的深藍超級電腦,以及當代的蘋果 Siri、Google Now 有著顯著的區別。

要了解 AlphaGo,首先我們需要了解 AlphaGo 背後到底是一個什麼東西。

它背後是一套神經網路系統,由 Google 2014 年收購的英國人工智慧公司 DeepMind 開發。這個系統和深藍不同,不是一台超級電腦,而是一個由許多個資料中心做為節點相連,每個節點內有著多台超級電腦的神經網路系統。就像人腦,是由 50-100 億個神經元所組成的,這也是為什麼這種機器學習架構被稱為神經網路。

你可以將 AlphaGo 理解為電影《全面進化》(Transcendence)裡由強尼戴普飾演的人工智慧,而它所控制的超級電腦,就像影片裡被人工智慧心控的人類一樣,共同為一種蜂群思惟(Hive Mind)服務。

AlphaGo 是在這個神經網路系統上,專為下圍棋(Go)而開發出的一個實例。然而,雖然名字已經介紹了它的功能,AlphaGo 背後的神經網路系統卻適合用於任何智力競技類項目。

這個系統的基礎名叫卷積神經網路(Convolutional Neural Network,CNN),這是一種過去在大型影像處理上有著優秀表現的神經網路,經常被用於人工智慧圖像辨識,比如 Google 的圖片搜尋、百度的識圖功能都對卷積神經網路有所運用。這也解釋了為什麼 AlphaGo 是基於卷積神經網路的,畢竟圍棋裡勝利的原理是:

對弈雙方在棋盤網格的交叉點上,交替放置黑色和白色的棋子。落子完畢後,棋子不能移動。對弈過程中圍地吃子,以所圍「地」的大小決定勝負。

擊敗了李世乭的圍棋人工智慧「AlphaGo」究竟是什麼?

▲ AlphaGo Logo / DeepMind

AlphaGo 背後的系統還借鑒了一種名為深度強化學習(Deep Q-Learning,DQN)的技巧。強化學習的靈感來源於心理學中的行為主義理論,即有機體如何在環境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預期,產生能獲得最大利益的習慣性行為。不僅如此,AlphaGo 借鑒了蒙地卡羅樹狀搜尋演算法(Monte Carlo Tree Search),在判斷當前局面的效用函數(value function)和決定下一步的策略函數(policy function)上有著非常好的表現,遠超過上一個能夠和人類棋手旗鼓相當的圍棋程式。

AlphaGo 所採用的 DQN 是一種具有廣泛適應性的強化學習模型,說白了就是不用修改代碼,你讓它下圍棋它能下圍棋,你讓它在紅白機上玩超級瑪莉和太空侵略者,它也不會不熟悉。做為一個基於卷積神經網路、採用了強化學習模型的人工智慧,AlphaGo 的學習能力很強,往往新上手一個項目,玩上幾局就能獲得比世界上最厲害的選手還強的實力。

2014 年,已經被 Google 收購的 DeepMind,用 5 款雅達利(Atari)遊戲 Pong、打磚塊、太空侵略者、海底救人、Beam Rider 分別測試了自己開發的人工智慧的性能,結果發現:在兩、三盤遊戲後,神經網路的操控能力已經遠超世界上任何一位已知的遊戲高手。

DeepMind 用同樣的一套人工智慧,不調整代碼就去測試各種各樣的智力競技專案,取得了優異的戰績,足以證明今天坐在李世乭面前的 AlphaGo ,擁有多強的學習能力。

擊敗了李世乭的圍棋人工智慧「AlphaGo」究竟是什麼?

▲ 李世乭執黑子,AlphaGo 執白子。大約進行了 85 分鐘時進入休息階段。

在此之前,DeepMind 進行過的無數虛擬棋局訓練,以及去年擊敗歐洲圍棋冠軍樊麾二段的經驗讓 AlphaGo 已經訓練出了頂尖的弈技,極有可能高於世界上任何已知的圍棋高手。

擊敗了李世乭的圍棋人工智慧「AlphaGo」究竟是什麼?

▲ 圍棋的可能性複雜度。

儘管棋盤上風雲變化,早在本次開戰前,AlphaGo 跟李世乭就已不在同一起跑線上了。至於李世乭曾經做出 AlphaGo 和自己棋份在二子和讓先之間的評論,恐怕第一局夠讓他反悔了。

AlphaGo 只是 DeepMind 證明自己的一個工具。你也可以將這次和李世乭的對局理解為 Google 的公關策略。

2014 年,這家公司曾經在其官網上寫道: DeepMind 致力於用研究深度學習的方式去真正了解智慧(solve intelligence)。但對於 DeepMind 和 Google 來說,打造 AlphaGo 以及其他人工智慧神經網路不是終點。

擊敗了李世乭的圍棋人工智慧「AlphaGo」究竟是什麼?

▲ DeepMind 三位聯合創始人。

將機器學習和神經科學進行結合,打造出一種「一般用途的學習演算法」。透過這種演算法,DeepMind 和 Google 希望能夠將智慧「定型化」,理解智慧是什麼,進而更好的幫助人類理解大腦。DeepMind 聯合創始人之一的 Demis Hassabis 曾經寫道:

用演算法將智慧提煉出來,有可能成為理解人類思惟最神秘原理的最佳方式。

attempting to distil intelligence into an algorithmic construct may prove to be the best path to understanding some of the enduring mysteries of our minds.

在 Google 收購 DeepMind 前,收購條款中的一項就是 Google 必須成立人工智慧道德委員會。因此,在目前階段人們不必擔心這樣的人工智慧最終殺死或統治人類。但至少,人工智慧在圍棋這樣的智力類競技項目上擊敗人類,是已經註定的事情。

做為一種決策樹巨大的遊戲,圍棋本來適合人腦思考,不適合機器運算。但 DeepMind AI 的方向就是模仿人腦思考,用神經網路「重現」智慧。

(本文由 PingWest 授權轉載)

延伸閱讀: