為了培養下一個 AlphaGo,暴雪想把《星海爭霸 II》變成 AI 實驗室

46

「圍棋上帝」AlphaGo 在戰勝柯潔之後便宣布退役,成為圍棋界難以逾越的一座高峰。而其締造者 DeepMind 公司早就為人工智慧準備了下一個目標:《星海爭霸 II》(StarCraft II)。

《星海爭霸 II》是由暴雪娛樂(Blizzard Entertainment)在 2010 年推出的即時戰略遊戲,遊戲劇情主要講述在遙遠未來,一場圍繞銀河系中心的種族之戰。由於遊戲極其考驗玩家對資源的營運策略,因此被視為 AI 研究的突破點之一。

DeepMind 科學家奧利奧爾‧溫雅爾斯(Oriol Vinyals)曾是頂級《星海爭霸》玩家之一,他曾提出這個觀點:

玩《星海爭霸》的 AI 需要有效利用記憶力,能進行長期戰略規劃,並根據新資訊不斷調整。如果我們開發的 AI 系統能掌握如此複雜多變的技能,那麼最終這些技術也將用於服務現實世界。

因此,早在 2016 年 11 月,DeepMind 就宣布與暴雪娛樂合作,將針對《星海爭霸 II》展開一連串研究實驗。到了 2017 年 8 月 9 日,暴雪與 DeepMind 公開這個專案的初步研究成果,將開放《星海爭霸 2》為 AI 研究環境。這個人工智慧環境包將包括:

  • 在遊戲中為開發者和研究員加入人工智慧 API,並且首次支援 Linux 環境。
  • 新增一個匿名遊戲重播資料程式庫,並且在未來幾週裡,遊戲重播資料將從 6.5 萬份增加到 50 萬份。
  • 加入 DeepMind 開源工具集 PySC2,讓研究員可以輕鬆呼叫暴雪底層的功能 API。
  • 新增一系列 RL 迷你遊戲,讓研究員測試 AI 在特定工作下的效能。

為了培養下一個 AlphaGo,暴雪想把《星海爭霸 II》變成 AI 實驗室

▲ 《星海爭霸 II》中訓練 AI 的小遊戲。(Source:DeepMind

實際上,《星海爭霸》一直都有不同難度的 AI 存在,只不過這些 AI 是透過存取遊戲背景、採集全域資料來與玩家鬥爭,玩家和 AI 一開始就不在同條起跑線。而 DeepMind 的最終目的,是訓練一個能在同等條件下與人類競爭的 AI,這才是該專案最具挑戰性的地方。

一些人類習以為常的動作,要讓 AI 來做就得經過不斷訓練。接受 The Verge 採訪時,DeepMind 科學家奧利奧爾舉過一個例子:

遊戲中有一個名為「戰爭迷霧」的機制,黑霧籠罩整個地圖,玩家需要不斷探索才能找出敵人。因此對 AI 來說,它必須記住「我曾在這裡見過某單位,但現在這個單位不見了,所以我要回去偵查一下,看看附近有沒有敵人的基地」。

對人類選手來說,這是一個常識。但對人工智慧來說,這是一個值得學習的挑戰。這是《星海爭霸》與西洋棋最不同的地方,玩西洋棋時,雙方陣營一目了然,但在《星海爭霸》裡,玩家無論何時都要了解周邊的環境。

為了培養下一個 AlphaGo,暴雪想把《星海爭霸 II》變成 AI 實驗室

▲ AI 眼中的《星海爭霸 II》。(Source:DeepMind

目前,人工智慧對《星海爭霸》的探索還處在非常早期的階段,不僅需要訓練各種「常識」,而且在面臨突發情況時的應變能力也不足(AlphaGo 就曾經下棋下到崩潰)。這也難怪南韓 24 歲的頂級《星海爭霸 II》選手 Byun Hyun-Woo 敢大放厥詞了:

至少在我有生之年,我不認為 AI 能打敗職業玩家。

AlphaGo 只用一年就超越柯潔,人工智慧問鼎《星海爭霸 II》世界冠軍,要幾年?

(本文由 愛范兒 授權轉載;首圖來源:DeepMind

延伸閱讀: