Site icon About 24/7

《星海爭霸 II》玩家,很快就可在天梯上為 DeepMind 的論文付出貢獻了

轉載從: Tech News 科技新報

7 月 10 日晚上,暴雪聯合 DeepMind 發表新聞,DeepMind 開發的《星海爭霸 II》AI「AlphaStar」很快就會出現《星海爭霸 II》歐洲伺服器的 1v1 天梯比賽。人類玩家不僅有機會與 AI 配對、和它們展開標準比賽,比賽結果也會像正常比賽影響自己的天梯分數。

在《星海爭霸 II》做科研實驗

正如人盡皆知的圍棋 AI AlphaGo,DeepMind 喜歡的強化學習 AI 研究過程,是在某項比賽(博弈)環境進行技術探索,在新技術的輔助下讓智慧體從歷史數據學習、從自我博弈學習,然後與人類高手比賽,評估 AI 的水準。樊麾、李世乭、柯潔都光榮成為「人工智慧測試高級工程師」。

此次《星海爭霸 II》AI「AlphaStar」的研究過程,DeepMind 繼續沿用這個思路,但這次他們更大膽,讓大批不同水準的普通玩家參與 AI 表現評估,最終的比賽結果會寫到《星海爭霸 II》AI 科研計畫的論文,投稿到學術期刊。這就是暴雪和 DeepMind 聯手把 AI 送上天梯比賽的最重要原因。

進入《星海爭霸 II》遊戲,在 1v1 比賽設置了允許接入 DeepMind(DeepMind opt-in)之後,參加 1v1 天梯比賽的玩家就可能會遇到 AlphaStar。為了控制所有比賽變項都盡量接近正常的人類 1v1 天梯比賽,以及減小不同比賽間的差異,AlphaStar 會隨機配到一部分玩家的天梯比賽,且 AI 會保持匿名,配到的玩家和《星海爭霸 II》後台都無法知道哪些比賽有 AlphaStar 參與。不過,設置允許接入 AI 後,相信玩家立即就會開始對配到 AI 產生期待,而且比賽開始之後,也可能很快就會發現對手有些不尋常之處。

▲ 1 月的比賽中,AlphaStar 會建造大量工人,快速建立資源優勢(超過人類職業選手的 16 個或 18 個上限)。

▲ 1 月的比賽中,AlphaStar 控制的兩個追獵者黑血極限逃生。

今年 1 月時 AlphaStar 就曾與人類職業選手比賽並取得全勝。相比當時的版本,此次更大規模測試的 AlphaStar 版本有些改動,其中一些明顯對人類有利:

參與測試的 AlphaStar 都從人類比賽 replay 和自我比賽學習,沒有從與人類的對局學習,同時 AlphaStar 的表現會在整個測試期間保持不變,不進行訓練學習;這樣得到的測試結果能直接反映 DeepMind 目前的技術水準到達怎樣程度。另一方面,既是 AlphaStar 技術方案的一大亮點,參與測試的 AlphaStar 也會是 AlphaStar 種群(AlphaStar league,詳見下文)的多個不同個體,配到的不同 AlphaStar 個體可能會有迥異的遊戲表現。

AlphaStar 技術特點

這裡把 AlphaStar 的技術特點總結如下(詳細可參見文章):

▲ AlphaStar league 的個體形成明顯的策略分佈。(Source:DeepMind

此次在 AlphaStar 測試的大行動空間下的長序列建模,以及群體強化學習的訓練策略,都是對提升強化學習演算法表現上限、應對複雜環境長期任務的積極技術探索。我們期待早日看到 DeepMind 的論文發表,更期待早日看到基於強化學習的決策系統讓整個領域發展得更成熟。當然了,喜歡《星海爭霸 II》的讀者,可以準備一下,為 DeepMind 這篇論文貢獻一份力量吧!

(本文由 雷鋒網 授權轉載;首圖來源:影片截圖)

延伸閱讀:

Exit mobile version