近些年來,人工智慧一步步走入我們的生活,因此我們必須了解這些聰明的「大腦」在面對兩難境地時會如何選擇。為此,Google 的 DeepMind 團隊專門進行針對性實驗,而實驗中的兩款遊戲都是在博弈論的囚徒困境理論基礎上開發的。
所謂的囚徒困境是兩個被捕的犯人間一種特殊博弈,兩個共謀犯罪的人被關入監獄,不能互相溝通。如果兩個人都不揭發對方,則由於證據不確定,兩人只需坐牢一年;若一人揭發、另一人沉默,揭發者因立功可立即獲釋,沉默者因不合作入獄 5 年;若互相揭發,則證據確實,兩者都判刑兩年。由於囚徒無法信任對方,因此傾向互相揭發,而不是同守沉默。這一經典理論說明了為什麼合作對雙方都有利時,保持合作也是困難的。
遊戲 1:紅藍色兩個 AI 收集綠色蘋果
「在現實生活中,無論是合作還是相互攻訐都需要複雜的行為特性,因此 AI 需要掌握執行一系列動作的先後順序。」DeepMind 團隊在部落格中寫道。「我們將這一全新設定看做連續的社會困境,並利用深層強化學習訓練過的 AI 對其進行研究。」
在實驗中,研究人員發現 AI 會逐漸展示自己理性的一面,在必要時它們會選擇合作。
在第一個名為「Gathering」的遊戲中,參與實驗的 AI 們會在同一區域執行收集蘋果的任務,它們可以尾隨在對手身後用砲彈攻擊其他 AI,被擊中的玩家會短暫出局。不過,這裡有個前提條件,即收集蘋果可以得分,但攻擊他人則不會。
AI 被扔在這個遊戲中數千次,直到它們透過深度強化學習理性。研究結果表明,這些傢伙有時也會被利益沖昏頭。
舉例來說,當某區域有很多蘋果時,AI 們會齊心協力收集蘋果來得高分;一旦蘋果數量下降,它們就會做出抉擇,開始互相攻擊以保護自己的勝利果實。
遊戲 2:需要兩個 AI 緊密配合
第二款遊戲名為 Wolfpack,該遊戲更需要 AI 們的合作。AI 們需要在混亂的瓦礫堆中尋找獵物,如果你能抓到自己的獵物就能得分;此外獵物被抓到時如果離獵物很近,也能得分。
在這款遊戲中,研究人員發現,隨著應對複雜戰略能力的提升,AI 們更傾向於相互合作。
透過以上實驗也讓我們得出一個結論,那就是 AI 會根據自己所處的環境進行抉擇,雖然有時它們會為了自己的利益相互攻訐,但大多數時候它們還是傾向於相互合作。
DeepMind 的研究團隊表示:「這樣的模型讓我們能在模擬系統中測試策略和干預措施。」如果一切順利,未來人類對複雜的多因素系統如經濟、交通系統或生態健康都能有較深刻的把握,因為它們都需要持續合作。
(本文由 雷鋒網 授權轉載;首圖來源:shutterstock)