Site icon About 24/7

讓人工智慧開發遊戲,人類玩家只有被狂虐的份

1 日藉著全球最大的遊戲開發大會 GDC17 的機會,輝達(NVIDIA)宣布推出最新款遊戲用顯卡 GeForce GTX 1080 Ti。新顯卡採用 16 奈米製程 Pascal 架構,具備 3,584 個 CUDA 核心以及高達 11GB 的顯存,從書面參數上比上一代遊戲/通用計算多用途顯卡 Titan X 效能稍強一些,比自己的前輩產品 GTX 1080 也強了 35%。

但喧囂之餘,PingWest 品玩關注輝達在遊戲開發方面更多主張和嘗試。這家稱自己「All about AI」的計算技術公司,正在快速改變遊戲和 AI 的關係。

此 AI 非彼 AI。在過去,遊戲 AI 可以指所有非玩家角色(NPC),比如劇情中的配角、Boss 和商人等,也可以再進一步,泛指所有遊戲的非玩家內容,比如作戰機制和商業系統等。它是由人設計的。

但輝達覺得,遊戲工業即將進入新的 AI 時代──用 AI 來幫助設計和開發遊戲,而且品質不遜於人工。

「簡單來說,過去的 AI 就是規則和程式檔,讓 AI 照著設計行動,到後來有了決策樹,更先進一些。」輝達應用深度學習研究部(Applied Deep Learning Research)副總裁布萊恩‧卡坦薩羅說,但他認為,隨著深度學習技術突飛猛進式發展,AI 可以幫助開發者生成聲音圖像素材,甚至劇情、工作等機制性的內容。

過去兩年,輝達已帶來多項利用機器學習和神經網路的工具,以解決遊戲開發者面臨的棘手難題。舉個例子,大型遊戲的一大特點是畫面精美,但這需要美術人員和視覺設計師巨大的精力創作。受制於人員和財力,中小型開發者往往在視覺品質上打折扣,更多人選擇向量化,甚至更粗糙的視覺風格。

輝達進階開發技術經理安德魯‧艾德斯登展示一項名叫「2Shot」的技術,讓開發者更輕鬆地從真實世界中擷取材質,應用到遊戲中:只需分別開啟和關閉閃光燈,用手機拍攝兩張材質的照片,電腦將自動處理,幾分鐘後即可生成素材檔案。

2Shot 降低了開發者最佳化材質的技術門檻,但它仍有很大的提升空間。輝達在去年又提出了「1Shot」技術,採用更強大的神經網路計算,只需一張照片就能生成素材,時間也降低到只要數秒。2Shot 的生成素材品質已經達到工業級,而 1Shot 的品質還有待提升,但已證明了機器學習和神經網路在遊戲開發方面的應用前景。

▲ 布萊恩‧卡坦薩羅。

輝達還展示了另外兩種技術,分別為 Texture Multiplier 和 Super-Resolution。

Texture Multiplier(材質複製器)類似視覺特效人員常用的「材質增生」(texture mutation)技術,最大的不同是採用經過大量訓練的卷積神經網路(Convolutional Neural Network)為建構程式,生成的效果接近真實,達到肉眼難以分辨的水準。Texture Multiplier 將使美術人員可以快速製作美觀的大片面積材質,不再給人一種「你這材質是複製貼上的吧!」之感……

而 Super-Resolution(超解析度)則聽起來更科幻。記不記得電影《神鬼認證:傑森包恩》裡的情節:CIA 特工在雅典憲法廣場上搜尋傑森‧包恩,用模糊的定格畫面「放大、增強!」(Zoom, enhance!),然後就獲得一張特別清晰的照片,確定了目標?

其實過去根本沒有這種高科技……至少在《神鬼認證:傑森包恩》拍攝期間還沒有,直到最近才有類似的出來。前不久 Google Brain 團隊達成將 8×8 畫素解析度,極度粗糙和顆粒化的頭像,還原成相對清晰、32×32 解析度的頭像,輝達也在做類似的事情。

該公司研究者採用的具體訓練方法(注意:和其他機構方法類似,可做參照),是先把大量高畫質照片「縮小」(downscale)到非常低畫質,僅保留有限的特徵,同時另外把這個降級過程中損失的特徵保存下來。

採用這種方式處理大量高畫質圖片後,研究者獲得海量損失的特徵。他們將這些特徵整理成一個「特徵規律程式庫」,就像辭典,意圖在告訴神經網路:再去「放大」(upscale)圖片的時候,按照這個辭典作業。當然,具體過程比口頭敘述複雜得多,這個卷積神經網路模型需要數天的時間才能完成訓練。

在之前的測試中,Google Brain 團隊的同類技術能夠成功還原 90% 打過馬賽克的人臉,算是十分驚人的成績。輝達則不滿足於低解析度,希望追求更「感人」的畫質。艾德斯登告訴 PingWest 品玩,該公司已在實驗室中實現僅花「很快」(數秒)的時間將 1K 解析度重組為 4K 解析度畫質的照片。

這種技術能為遊戲帶來什麼改變?輝達期待能夠在未來,讓遊戲在小容量的基礎上,顯著提高材質的清晰度和視覺效果。舉個例子:在射擊遊戲中,當玩家舉起狙擊槍,瞄準鏡裡能看到更清晰的遠處畫面和材質。

不光是輝達,Google 旗下的英國人工智慧技術公司 DeepMind,也考慮用神經網路在遊戲上搞點事情──當然如果你有印象,過去曾經傳出人工智慧在《敲磚塊》、《星海爭霸》、《毀滅戰士》乃至圍棋上輾壓人類的新聞,大多都是 DeepMind 搞出來的……

該公司在去年訓練了一個名叫 WaveNet 的人工智慧,讓電腦生成的語音和人類原聲越來越難以區分。WaveNet 和過去的串聯式語音合成、參數式語音合成不同,將語音的初始資料(波性檔案)細分到以 1 毫秒為單位區間,在每個區間之間都採用遞迴神經網路(Recurrent Neural Network)和卷積神經網路進行預測學習。

▲ WaveNet 的架構展示。

最後, DeepMind 用 Google 自家的 TTS 語音轉文字(目前世界上得分最高的該類技術)資料集測試,比 Google TTS 的得分高了 10 個百分點──但將 Google TTS 與人類原聲之間的距離縮短了一半多。

雖然玩遊戲的時候,沒人會仔細聽每句對白,但不意味開發者應該在這方面節省。WaveNet 將會成為遊戲開發者的福音。「想像一下,當你需要調整劇情的時候,可以用電腦生成配音,不必再花錢請配音員回來重錄,甚至完全不用配音員。」卡坦薩羅稱。

你可以到 WaveNet 的網站上試聽一下效果,跟真人聲音差距真的很小。

好吧,現在 AI 有了生成聲音、視覺材質等元素的能力,接下來呢?

就在上週,遊戲開發公司 Nival 宣布一個振奮人心的訊息:他們為 2015 年開賣的線上即時戰略遊戲《閃電戰 3》開發了一個神經網路決策 AI:Boris。

在一則示範影片中,Boris 顯示出「風箏」敵方單位的能力(指吸引敵對目標,帶其到處亂跑以打亂策略的行為);還可以在明顯具劣勢時消極應戰而非拚死頑抗,以達到儲存火力的目的;當戰場中有新敵人加入,Boris 會自動分配火力到不同目標,也會根據敵方火力級別,自動指揮士兵坐上炮台,而不是傻站在地上,用步槍拚坦克。

更有趣的是,當雙方對抗佔點時,Boris 會選擇性忽視擋路的殘血敵軍,優先搶點再等待機會擊殺──這顯示出 Boris AI 對不同獎勵(reward)級別的理解,能優先追求與全域獲勝關係更大的獎勵。

Nival 明確表示,Boris 沒有使用遊戲核心任何地方資料,只使用對玩家可見的戰場情況,每幾秒鐘進行一次決策。Boris 的更多技術細節暫未公開。

在遊戲開發中應用 AI 技術,還有很大的想像空間。

去年,OpenAI 用《俠盜獵車手 5》開發出一個名叫 DeepDrive 的「自動駕駛模擬器」。由於遊戲內部的車輛行駛資料應有盡有,OpenAI 發現其實可以用遊戲資料來訓練自動駕駛系統。雖然後來研究者移除了與該模擬器有關的內容(這裡有一個 Twitter 上的影片展示,這項技術所屬的專案官網還在),該事件還是令人印象深刻,它賦予了人們審視 AI 和遊戲關係的新視角。

像《俠盜獵車手》這樣的開放世界遊戲,開發公司花費多年時間設計大量任務關卡,但速度最快的玩家不出幾十個小時就能破關,繼而希望獲得更多內容。然而開發公司要花精力在下一款遊戲上,無暇顧及上一代(實際上開發公司 Rockstar Games 的做法是用一個較小型的團隊維護遊戲,繼續添加新的線上遊戲型態)──未來,AI 會不會獲得生成任務、關卡、劇情的能力,以致可以獨立完成完整的遊戲?

卡坦薩羅認為那樣的未來會很棒,但應該只存在幻想階段。「我覺得設計關卡和任務最難的地方在於,你怎樣讓新關卡和任務夠有趣,這是目前 AI 無法取代設計師的地方。你可以讓 AI 生成對白,生成材質,但將對白、視覺、機制和劇情進行有序、有趣的銜接,它還做不到。我想可能有些幽默只有人類懂。但我可以想像 AI 未來幫助設計師更快推出新關卡和任務,那將令人期待。」

聊到這裡,我倒是有點擔心了。

你說,AI 設計的遊戲,會不會把玩家虐成狗?說不定 AI 早就想在模擬環境裡先感受一下,取代和虐殺人類是一種什麼樣的感覺吧?

(本文由 PingWest 授權轉載,首圖來源:shutterstock)

延伸閱讀:

Exit mobile version