不只下圍棋贏人類，微軟 AI 玩《Pac-Man》也超越人類了

由

2019-06-13

微軟研究人員創建了一個人工智慧系統，這個系統能在 1980 年代風靡全球的電子遊戲《Ms. Pac-Man》中獲得最高分，系統使用分治策略來最大程度影響 AI 代理，完美地破關。

今年年初，微軟收購了一家人工智慧初創公司 Maluuba，Maluuba 公司團隊運用強化學習技術（機器學習的分支），在《Ms. Pac-Man》Atari 2600 版本中表現完美。用這種方法，該團隊在遊戲中得到的分數高達 999,990。

Perspective Box 透視箱

位於加拿大蒙特利爾的麥吉爾大學（McGill University），從事電腦科學研究的 Doina Precup 副教授表示，AI 研究人員常常使用各種電子遊戲來測試他們研發的系統，但研究人員發現《Ms. Pac-Man》是最難攻克的。

但是，Precup 表示，相比研究人員取得的成就，她對研究人員獲得成果的過程更感興趣。為了在《Ms. Pac-Man》中獲得更高分數，Maluuba 公司團隊將操控《Ms. Pac-Man》的大問題分解成若干個小問題，然後將小問題分發給 AI 代理解決。

Precup 說，「這個分治策略的想法讓 Maluuba 公司的研究人員使用不同的系統來實現同一個目標，這是一件非常有趣的事」，她還說：「這個想法類似一些大腦如何工作的理論，最大程度影響 AI 代理教學，進而利用有限的資訊完成更複雜的任務。倘若能夠完美利用分治策略，那人工智慧將向前跨越一大步，這真的讓人感到興奮。」

Maluuba 團隊將這種分治策略稱之為混合式獎賞架構（Hybrid Reward Architecture），這個方法使用了 150 多名人工智慧代理，每個代理與其他代理相互獨立精通《Ms. Pac-Man》遊戲。比如，一些代理成功找到一個豆子獲得獎勵，而另外一些代理由於幽靈必須待在原處。

然後，研究人員在《Ms. Pac-Man》中創建了一個最高代理，就像公司高級經理，最高代理能獲得所有代理的建議，綜合分析後由最高代理決定 Ms. Pac-Man 該如何移動。

最高代理會根據選擇各個方向前進的代理數量的大小來決定移動方向，但同時也需要考慮到代理想要往某個方向移動的反應強度。例如，如果100 個代理想向右邊移動，因為向右邊走是最佳路徑，但有 3 個想要向左邊移動，因為右邊有一個致命的幽靈，那這 3 個代理向左邊移動的反應強度明顯強於其他代理，考慮到幽靈的存在，頂級代理應該決定向左移動。

Maluuba 公司的研究室經理 Harman Van Seijen，將他們的最新研究成果發表成一篇文章，文章中寫到，當每位代理都果斷選擇，最高代理綜合利用每個代理的資訊後做最佳選擇，那麼在《Ms. Pac-Man》中就可獲得最好的結果。Harman Van Seijen 說：「雖然每個代理只關心一個特定問題，但它們之間有很好的互動作用」。

不只下圍棋贏人類，微軟 AI 玩《Pac-Man》也超越人類了

▲ Harman Van Seijen。

內容目錄 隱藏

1 為什麼 AI 要研究破關《Ms. Pac-Man》

2 強化學習

為什麼 AI 要研究破關《Ms. Pac-Man》

運用最先進的 AI 研究方法來擊敗 1980 年代 Atari《Ms. Pac-Man》這樣的簡單遊戲，看上去很匪夷所思。但 Maluuba 公司的專案經理 Rahul Mehrotra 表示，使用演算法贏得簡單的電子遊戲其實非常困難，因為玩遊戲的過程中會遇到各種各樣狀況。

Mehrotra 表示：「許多從事人工智慧的公司構建遊戲智慧演算法，因為公司希望人工智慧像人類一樣擁有玩遊戲的技能。」

Steve Golson 是《Ms. Pac-Man》街機版創始人之一，他說《Ms. Pac-Man》最初定位是街機遊戲，希望遊戲對人有持續吸引力而走出宿舍，所以《Ms. Pac-Man》必須掌握人類不能完全征服的程式。

不只下圍棋贏人類，微軟 AI 玩《Pac-Man》也超越人類了

▲ Steve Golson。

營運諮詢公司 Trilobyte Systems 的 Golson 說，他們故意設計《Ms. Pac-Man》比普通 Pac-Man 更不可預測，所以玩家很難破關。複雜的遊戲使研究人員試圖用 AI 代理反應隨機環境。Golson 還說：「使用 AI 代理來通關《Ms. Pac-Man》是可行的，但遊戲有隨機性，需要設計的 AI 程式尤其複雜。」

強化學習

對不斷發展的強化學習領域工作研究人員來說，這種不可預測性極有價值。在 AI 研究中，強化學習是監督學習的副本，是一種更常用的人工智慧法，能讓系統做任務時變得更好。

透過強化學習，代理對其每個動作都採取積極或消極反應，透過不斷試驗和犯錯，最大限度地獲得積極反應或獎賞。

具有監督學習的 AI 系統，透過良好和不恰當的示例，來學習如何在對話中適當回應。而強化學習系統則是透過系統在對話中正確回應，獲得更高級別回饋的方式來學習對話。

AI 專家認為，強化學習可以用於創建 AI 代理，這樣的代理更能決斷，能完成更複雜的工作，為人們提供高水準的服務。Mehrotra 表示，他們開發的破關《Ms. Pac-Man》系統，就可為人們提供更好的服務。它可在特定時間或任意時間幫公司銷售部門預測商品的潛在客戶。該系統可以使用多個代理，每個代理代表一個客戶，可預測很多重要因素，例如：哪些客戶會續簽合約，哪些合約對公司較有價值。

有了 AI 系統預測的幫助，銷售主管可把更多時間放在潛在客戶身上，如此會提高出售機會，因為銷售人員的目光已瞄準最容易下單的客戶。

Van Seijen 表示，他希望這種分治策略可用在 AI 其他研究領域，如自然語言處理。他還說：「分治策略使人們在解決真正複雜的問題上取得進步。」