Site icon About 24/7

DOTA 5v5 AI 亮點不是如何「學」,而是如何「教」

美國時間 日下午,OpenAI 主辦的線下比賽(OpenAI 稱為「OpenAI Five Benchmark」)一共進行了四局比賽。第一局 名現場觀眾組成的路人隊伍被 分鐘破中路二塔,分鐘上路上高地,12 分鐘破兩路,人頭比 264,可說是完全輾壓。

之後三局比賽是重頭戲,OpenAI Five 對陣 位前職業選手(BlitzCapFoggedMerlini)與一位現任職業選手(MoonMeander)組成的高手隊伍。第一局依然慘敗,21 分鐘破第二路高地,人類選手打出 GG,人頭比 398。第二局人類選手選擇更強的控制、更積極的打法,卻也只堅持 24 分鐘,人頭比 4112。這樣,三局兩勝的比賽就告終了。

▲ 第二局人類高手比賽結束後,OpenAI CTO Greg Brockman 依序向 位職業選手(前)擁抱致意。

勝負已分,第三局就純娛樂,現場觀眾幫 OpenAI Five 選了 個不怎麼厲害的英雄,最後果然讓人類玩家獲勝。

不過除了比賽比分,廣大強化學習研究人員和人工智慧愛好者還有一個深深的疑問就是,這樣的 AI 是如何訓練出來的。

毋庸置疑,DOTA 遊戲的複雜度比圍棋高,回饋也相當稀疏,即使選用 OpenAI 開發非常成熟的大規模分散式 PPO 實現「Rapid」,也難以直覺信服「只要有足夠訓練時間,就能學到如此豐富的遊戲行為」。比如首先 OpenAI Five 團隊協作表現出人類一樣的明確核心和輔助英雄,比如據 OpenAI 的研究人員介紹 OpenAI Five 也會選擇打肉山,只說這兩件事就都是人類玩家需經有意識的策略判斷和執行才能做出,強化學習演算法現在就有這麼高層次的思維了?不太可能吧!

下面這些 日比賽瞬間也值得玩味:

▲ 比賽進行到 20 分鐘,AI 的巫妖去看肉山。實際上整場比賽 AI 的英雄時不時就會去看看肉山。

▲ Blitz 的影魔被 AI Gank,用暗影護符原地隱身,AI 的直升機和冰女兩個有 AOE 的英雄在附近還有一個 AI 隊友的情況下直接撤退了。現場解說評價「簡直是人類對隱身物品的濫用」。

▲ 還是天輝方的 Blitz 的影魔,繞樹林被 AI 方的眼看到。值得注意的是,這時候天輝方下路 2 塔都已經丟了,而這個夜魘方的眼就插在夜魘下路 1 塔外不遠的地方。這個眼位可算是非常保守、非常奇怪。

▲ AI 的火槍手很喜歡見面就給大,Blitz 的滿血影魔露頭就被大──這個策略其實非常有效,團戰中人類方的冰女經常在團戰開始前先被火槍大到半血,然後團戰一開始就馬上陣亡。

▲ 22 分鐘 AI 的冰女補出點金手,不過接下來 分鐘內都沒有使用。

強化學習的範式決定了「幫助帶來高回饋的行為」會更容易學到,而 DOTA 的複雜就在於,許多行為和最終遊戲結果之間的關聯似乎若即若離,大多數場合都有一錘定音效果的行為也許人類自己都說不清。即便相信 AlphaGo 能在反覆自我對局找到更好策略的人,也不一定相信 DOTA 如此複雜的環境下僅靠自我對局就可以學到定位、分路、補兵、先手、看肉山、插眼等系列行為。

結合 OpenAI 之前放出的一些資料和 OpenAI Five 開發團隊比賽現場的訪談,找到了「計算集群上相當於 180 年遊戲時間每天訓練」之外的,幫助我們理解更具體的 AI 達成端倪。相比說這些是「強化學習研究的小技巧」,我們更覺得這是「人類教學的小技巧」;相比 OpenAI Five 訓練中模型自己的探索行為,意義更重大的是人類成功把自己的知識和經驗設法教會了 OpenAI Five

現在知道這些 OpenAI 的「教學」方法之後,再回過頭看看前面提到的 OpenAI Five 遊戲表現,是否顯得合理親切多了呢?

可說 OpenAI Five 開發團隊想了許多辦法,鼓勵 AI 用像人類的策略和作業玩 DOTA,但並不明確限制表現上限。人類玩家探索這個遊戲這麼久之後,借助人類的經驗快速避開低效的遊戲空間當然是一個好主意。從這角度講,OpenAI 現階段的 OpenAI Five 彷彿是早期 AlphaGo,以人類過往遊戲學習為基礎,然後嘗試提升和創新。

這套系統繼續最佳化之後在 DOTA2 國際邀請賽(TI)面對現役職業選手能有怎樣的表現,比現在明顯進化全面的(也許是 Master 版)OpenAI Five、甚至去掉一切約束完全自己探索的 OpenAI Five Zero 版,未來是否還有更多可能呢?我們拭目以待。

(本文由 雷鋒網 授權轉載;首圖來源:OpenAI

延伸閱讀:

Exit mobile version