Deepmind 挑戰《星海爭霸 2》，AI 10：1 戰勝職業玩家

2019 年 1 月 25 日凌晨 2 點（中原標準時間），Google（GOOGL-US）旗下的人工智慧公司 DeepMind 在倫敦舉辦線上直播，公佈了 10 局《星海爭霸 2 》的比賽影片，由其研發的遊戲類人工智慧 AlphaStar 向兩名《星海爭霸 2 》職業遊戲玩家挑戰，影片結果顯示兩名職業玩家都以 0：5 輸給 AlphaStar。

《星海爭霸 2》是暴雪（Activision, ATVI-US）娛樂在 2010 年 7 月發布的一款即時戰略遊戲（RTS）。RTS 遊戲顧名思義是指遊戲過程為即時進行，而不是採取回合制；這意味著玩家需要在短時間內控制多個不同的單位，即時下達指令。

即時戰略遊戲大多和戰爭題材相關，以《星海爭霸 2》為例，玩家們在一塊迷霧籠罩的地圖上對抗，依靠探索地圖獲取更多資訊，同時進行採集、建造、發展、戰鬥等過程。

在 RTS 遊戲中，比賽過程會隨著獲取的資訊而不斷發生變化，既考驗選手對遊戲內的瞬間操作，也考驗戰術的執行，隨機性很強。大約 300 個遊戲指令可以分叉成接近 1 億個可能的後續操作，而這些都要求人工智慧瞬間分析做出反應。所以相較於規則明確、有思考時間的國際象棋或圍棋等傳統遊戲，人工智慧能否在電競類游戲中擊敗人類一直是備受關注的焦點。

從公佈的影片來看，AlphaStar 先是在兩週前挑戰德國職業選手 TLO，他在 2018 WCS Circuit 排名第 44 位，是一名蟲族玩家。

AlphaStar 在規則上占有一些優勢。首先比賽雙方使用的都是神族，這不是 TLO 最擅長的種族；同時 AlphaStar 能直接讀取地圖上所有的可見內容，類似於可以俯瞰整張地圖，即使有迷霧減少讀取資訊，卻也比需要切換屏幕來操作不同區域的人類具有很大的優勢。

比賽中，AlphaStar 的策略比較保守，會建造大量工人，快速建立資源優勢（超過人類職業選手最多 16 或 18 個上限），雖然AlphaStar 以 5：0 取得勝利，但 TLO 賽後坦言自己覺得很有機會贏得下一場比賽，他需要更多對戰的機會來找到 AlphaStar 的弱點。

經過兩週的調整後，AlphaStar 又向 2018 年 WSC 奧斯汀站亞軍、世界頂級神族選手之一的 MaNa 發起挑戰，AlphaStar 明顯在戰術選擇和單位操作上進步很多，例如學習和嘗試封路戰術。人工智慧帶來的微操（細微操作）優勢也被利用，其中一局比賽中，AlphaStar 將 30 多個追獵者（遊戲內單位）分成 2～3 組，從 3 個方向包夾 MaNa 的進攻部隊。

暴雪和 DeepMind 特別在 25 日凌晨在直播平台重播了這 10 場比賽中的精選片段。但在重播結束之後，DeepMind 宣布 AlphaStar 已經升級為更高級的版本，並在現場向 MaNa 發出另一場表演賽的挑戰。而新版 AlphaStar 將做到更多限制，取消直接讀取地圖可見資訊的功能，它必須和人類選手一樣切換屏幕以獲取資訊。

比賽中，MaNa 採取一邊騷擾、一邊積攢混合部隊的戰術，AlphaStar 反而陷入了應對騷擾的循環任務中，沒有察覺到在主要戰力上的差距增大。在戰力形成之後，MaNa 一波壓制擊潰了 AlphaStar，取得對人工智慧的首勝。現場解說稱 AlphaStar 的失敗在於面對騷擾這種重複性的戰術時，因為判斷失誤而浪費了大量資源。

DeepMind 在過去曾開發人工智慧 AlphaGo 挑戰人類，並成功以 4：1 擊敗世界冠軍李世石（韓國圍棋九段棋士），以 3：0 擊敗世界排名第一的中國職業選手柯潔（中國圍棋職業九段棋手）。隨後，DeepMind 宣布開發競技遊戲領域的人工智慧，並在《雷神之鎚 3》、《 Dota 2》這類控制單一單位的遊戲裡取得對人類玩家的勝利。

而在更複雜的 RTS 遊戲領域，DeepMind 很早就嘗試挑戰，2016 年即和暴雪簽訂了開源工具 PySC2 開發協議，將在遊戲平台中引入機器學習方法，進行人工智慧研究。

比賽重播的過程當中，主持人問到 DeepMind 科學家，平時如何訓練 AlphaStar？DeepMind 科學家 Oriol Vinyals 和 David Silver 解釋，首先是模仿學習，團隊從許多選手那裡獲得了很多比賽的重播資料，並試圖讓 AI 通過觀察一個人所處的環境，盡可能地模仿某個特定的動作，從而理解星海爭霸的基本知識；《連線（Wired）》雜誌文章表示，AlphaStar 分析了大約 50 萬份匿名的遊戲數據，初步讓 AlphaStar 掌握模仿人類策略的能力。

隨後，DeepMind 基於不同玩家的比賽數據製作出多個 AlphaStar 的代理（Agent）和分叉，讓它們按照 “Alpha League” 聯賽模式採用不同的戰術策略，逐一相互對抗，每場比賽都會產生新的資訊來疊代人工智慧。最後，DeepMind 就是在 “Alpha League” 聯賽中選擇 5 個不易被擊敗的 Agent 來和人類選手比賽。

選擇暴雪的《星海爭霸 2》作為研究項目，正是 DeepMind 團隊看中這款遊戲既具有高水平的競技難度，同時遊戲人群廣泛，超過 240 萬名遊戲玩家可以提供大量的遊戲比賽數據。

基於遊戲的人工智慧研究並非只是為了娛樂，在現實世界中，根據大量數據進行複雜的預測是人工智慧最基本的挑戰。其中涉及到的變數遠比星海爭霸還要複雜得多，面對許多難以預測的突發情況，人工智慧必須要作出正確的對策，還要根據實際情況細微的調整對策。

在直播的最後，另一場值得期待的 “大戰” 也發出了預告：芬蘭電競戰隊 ENCE 發布通告，稱 WCS《星海爭霸 2》全球總冠軍芬蘭選手 Serral 將再與 AlphaStar 上演一場人機大戰，時間訂於 2 月 15 日。

《好奇心日報》授權轉載

【延伸閱讀】

週餘

篇