Site icon About 24/7

人工智慧 Libratus 如何擊敗頂級德州撲克玩家?

1 月 30 日,賓州匹茲堡 Rivers 賭場,耗時 20 天的德州撲克人機大戰塵埃落定。卡內基美隆大學(CMU)開發的 AI 程式 Libratus 擊敗人類頂級職業玩家,贏得 20 萬美元獎金。儘管之前 Google DeepMind 的 AlphaGo 在與李世乭的五局圍棋大戰,以及網路上跟頂級圍棋選手的 60 局快棋大戰中出盡了風頭,但德州撲克對 AI 卻是更大的挑戰,因為 AI 只能看到遊戲部分資訊,遊戲並不存在單一最優下法。那麼 CMU 的 Libratus 是如何擊敗人類頂級職業玩家?《Wired》雜誌這篇文章為我們揭密

在幾乎 3 星期時間裡,Dong Kim 都待在匹茲堡一個賭場內跟一台機器玩撲克,但 Kim 不是普通的撲克玩家,跟他對戰的也不是普通機器,這場比賽更不是普通的撲克遊戲。

28 歲的 Kim 是全世界最強的撲克玩家之一。那台由卡內基美隆大學兩位電腦科學研究人員開發的機器,是一套在匹茲堡一台超級電腦裡執行的人工智慧系統。在整整 20 天內,他們都在玩無限制德州撲克比賽,這是一種尤其複雜的撲克遊戲形式,其投注策略往往經過很多手。

這場比賽剛結束不久。大概賽程過半的時候,Kim 開始覺得 Libratus 好像能看到他的牌。不過他說:「我不是指它作弊,而是說它有那麼強。」實際上強到擊敗 Kim 及其他 3 名頂級人類玩家──這是人工智慧的第一次。

在比賽期間,Libratus 的創造者對這套系統的運作方式遮遮掩掩,大家不清楚它如何取得成功,如何以其他機器前所未有的方式模仿人類直覺。但結果證明,Libratus 能達到如此高度是因為它不僅是 AI。

Libratus 依靠 3 套不同系統的協作,這提醒我們現代 AI 並不是由一項而是多項技術驅動。這段時間以來深度神經網路抓住大多人的注意,當然這也有很好的理由:它們為一些全球最大型的技術公司從影像辨識到翻譯,乃至搜尋引擎等一切提供了動力。但神經網路的成功也為其他輔助機器模仿甚至超越人類天才的 AI 技術注入了新生命。

比方說,Libratus 就沒有使用神經網路,它主要靠強化學習,這是人工智慧的一種,一種強調除錯的方法,其實就是自己跟自己大量玩遊戲。Google DeepMind 實驗室利用強化學習來開發 AlphaGo,這套系統攻克圍棋的時間比預期早了 10 年,但這兩套系統之間有一個關鍵點不同。AlphaGo 是透過分析人類玩家的 3,000 萬份棋譜來學習的,然後才自己跟自己下棋來改進技能。相對而言,Libratus 是從零開始學。

透過一種名為「反事實遺憾最小化」(counterfactual regret minimization)的演算法,它先隨機玩,然後經過幾個月訓練和玩了上兆手撲克後,它也到達能挑戰人類最強玩家的高度,不僅如此,它的玩法是人類無法做到的──它下注的範圍大得多,且會隨機下賭注,這樣對手就更難猜到自己手上有什麼牌。與指導教授 Tuomas Sandholm 一起開發這套系統的 CMU 研究生 Noam Brown 說:「我們只是向 AI 說明這個遊戲,但沒告訴它怎麼玩。它完全獨立於人的玩法形成自己的策略,而且它的玩法跟人類玩法非常不一樣。」

這只是第一階段。在匹茲堡比賽期間,第二套系統會分析遊戲狀態並聚焦第一套系統的注意力。這套系統屬於一種「殘局解算器」(end-game solver),上週 Sandholm 和 Brown 發表的論文詳細說明了細節。在第二套系統的幫助下,第一套系統再也不需要像過去那樣跑完所有可能的場景,它可以只試探其中一些場景。也就是說,Libratus 不僅在比賽前學習,而且還能在比賽中學到東西。

光靠這兩套系統就已經很有效率了,但 Kim 等其他玩家仍能夠找出機器玩法的一些型態然後設法加以利用。為此,Brown 和 Sandholm 開發了第三套系統。每天晚上 Brown 都會跑一個演算法來辨識那些型態然後從策略中剔除。他說:「一個晚上它就能計算完然後次日備妥一切。」

如果這看來不公平,但 AI 就是這麼強。這不僅表示 AI 跨越了許多技術,人類往往也頻繁加入,積極地改進 AI、跑 AI 或增強 AI。Libratus 的確是個里程碑,展示一種新型 AI,從華爾街交易到網路安全乃至拍賣和政治談判,這種 AI 都可以扮演特定的角色。曾幫助 Google 設立 AI 實驗室,現為百度首席科學家的吳恩達說:「撲克曾是 AI 最難攻克的遊戲之一,因為你只能看到部分資訊,撲克並沒有單一最優下法。相反地,AI 玩家必須讓自己的行動隨機化,這樣它唬騙時對方才無法確定真假。」

Libratus 把這點做到極致:它的下注非常隨機化,甚至超過人類最強玩家的水準,如果這個方法不奏效,Brown 晚上跑的演算法會彌補不足。金融市場交易員也可以採取相同做法,外交官亦然。這是一個強大且相當令人不安的想法:機器可以用豪賭嚇退人類。

(本文由 36Kr 授權轉載,首圖來源:Flickr/Kat CC BY 2.0)

延伸閱讀:

Exit mobile version