股市投資 小副述文字一共二十個字小副述文字一共二十


基金ETF 小副述文字一共二十個字小副述文字一共二十


全球總經 小副述文字一共二十個字小副述文字一共二十


理財商業 小副述文字一共二十個字小副述文字一共二十


消費信用 小副述文字一共二十個字小副述文字一共二十


保險稅制 小副述文字一共二十個字小副述文字一共二十


房產生活 小副述文字一共二十個字小副述文字一共二十


 
Deepmind 挑戰《星海爭霸 2》,AI 10:1 戰勝職業玩家
收藏文章
很開心您喜歡 好奇心日報 的文章, 追蹤此作者獲得第一手的好文吧!
好奇心日報
字體放大


分享至 Line

分享至 Facebook

分享至 Twitter


Deepmind 挑戰《星海爭霸 2》,AI 10:1 戰勝職業玩家

2019 年 1 月 30 日

 
展開

2019 年 1 月 25 日凌晨 2 點(中原標準時間),Google(GOOGL-US)旗下的人工智慧公司 DeepMind 在倫敦舉辦線上直播,公佈了 10 局《星海爭霸 2 》的比賽影片,由其研發的遊戲類人工智慧 AlphaStar 向兩名《星海爭霸 2 》職業遊戲玩家挑戰,影片結果顯示兩名職業玩家都以 0:5 輸給 AlphaStar。

《星海爭霸 2》是暴雪(Activision, ATVI-US)娛樂在 2010 年 7 月發布的一款即時戰略遊戲(RTS)。RTS 遊戲顧名思義是指遊戲過程為即時進行,而不是採取回合制;這意味著玩家需要在短時間內控制多個不同的單位,即時下達指令。

即時戰略遊戲大多和戰爭題材相關,以《星海爭霸 2》為例,玩家們在一塊迷霧籠罩的地圖上對抗,依靠探索地圖獲取更多資訊,同時進行採集、建造、發展、戰鬥等過程。

在 RTS 遊戲中,比賽過程會隨著獲取的資訊而不斷發生變化,既考驗選手對遊戲內的瞬間操作,也考驗戰術的執行,隨機性很強。大約 300 個遊戲指令可以分叉成接近 1 億個可能的後續操作,而這些都要求人工智慧瞬間分析做出反應。所以相較於規則明確、有思考時間的國際象棋或圍棋等傳統遊戲,人工智慧能否在電競類游戲中擊敗人類一直是備受關注的焦點。

從公佈的影片來看,AlphaStar 先是在兩週前挑戰德國職業選手 TLO,他在 2018 WCS Circuit 排名第 44 位,是一名蟲族玩家。

AlphaStar 在規則上占有一些優勢。首先比賽雙方使用的都是神族,這不是 TLO 最擅長的種族;同時 AlphaStar 能直接讀取地圖上所有的可見內容,類似於可以俯瞰整張地圖,即使有迷霧減少讀取資訊,卻也比需要切換屏幕來操作不同區域的人類具有很大的優勢。

比賽中,AlphaStar 的策略比較保守,會建造大量工人,快速建立資源優勢(超過人類職業選手最多 16 或 18 個上限),雖然AlphaStar 以 5:0 取得勝利,但 TLO 賽後坦言自己覺得很有機會贏得下一場比賽,他需要更多對戰的機會來找到 AlphaStar 的弱點。

經過兩週的調整後,AlphaStar 又向 2018 年 WSC 奧斯汀站亞軍、世界頂級神族選手之一的 MaNa 發起挑戰,AlphaStar 明顯在戰術選擇和單位操作上進步很多,例如學習和嘗試封路戰術。人工智慧帶來的微操(細微操作)優勢也被利用,其中一局比賽中,AlphaStar 將 30 多個追獵者(遊戲內單位)分成 2~3 組,從 3 個方向包夾 MaNa 的進攻部隊。

暴雪和 DeepMind 特別在 25 日凌晨在直播平台重播了這 10 場比賽中的精選片段。但在重播結束之後,DeepMind 宣布 AlphaStar 已經升級為更高級的版本,並在現場向 MaNa 發出另一場表演賽的挑戰。而新版 AlphaStar 將做到更多限制,取消直接讀取地圖可見資訊的功能,它必須和人類選手一樣切換屏幕以獲取資訊。

比賽中,MaNa 採取一邊騷擾、一邊積攢混合部隊的戰術,AlphaStar 反而陷入了應對騷擾的循環任務中,沒有察覺到在主要戰力上的差距增大。在戰力形成之後,MaNa 一波壓制擊潰了 AlphaStar,取得對人工智慧的首勝。現場解說稱 AlphaStar 的失敗在於面對騷擾這種重複性的戰術時,因為判斷失誤而浪費了大量資源。

DeepMind 在過去曾開發人工智慧 AlphaGo 挑戰人類,並成功以 4:1 擊敗世界冠軍李世石(韓國圍棋九段棋士),以 3:0 擊敗世界排名第一的中國職業選手柯潔(中國圍棋職業九段棋手)。隨後,DeepMind 宣布開發競技遊戲領域的人工智慧,並在《雷神之鎚 3》、《 Dota 2》這類控制單一單位的遊戲裡取得對人類玩家的勝利。

而在更複雜的 RTS 遊戲領域,DeepMind 很早就嘗試挑戰,2016 年即和暴雪簽訂了開源工具 PySC2 開發協議,將在遊戲平台中引入機器學習方法,進行人工智慧研究。

比賽重播的過程當中,主持人問到 DeepMind 科學家,平時如何訓練 AlphaStar?DeepMind 科學家 Oriol Vinyals 和 David Silver 解釋,首先是模仿學習,團隊從許多選手那裡獲得了很多比賽的重播資料,並試圖讓 AI 通過觀察一個人所處的環境,盡可能地模仿某個特定的動作,從而理解星海爭霸的基本知識; 《連線(Wired)》雜誌文章表示,AlphaStar 分析了大約 50 萬份匿名的遊戲數據,初步讓 AlphaStar 掌握模仿人類策略的能力。

隨後,DeepMind 基於不同玩家的比賽數據製作出多個 AlphaStar 的代理(Agent)和分叉,讓它們按照 “Alpha League” 聯賽模式採用不同的戰術策略,逐一相互對抗,每場比賽都會產生新的資訊來疊代人工智慧。最後,DeepMind 就是在 “Alpha League” 聯賽中選擇 5 個不易被擊敗的 Agent 來和人類選手比賽。

選擇暴雪的《星海爭霸 2》作為研究項目,正是 DeepMind 團隊看中這款遊戲既具有高水平的競技難度,同時遊戲人群廣泛,超過 240 萬名遊戲玩家可以提供大量的遊戲比賽數據。

基於遊戲的人工智慧研究並非只是為了娛樂,在現實世界中,根據大量數據進行複雜的預測是人工智慧最基本的挑戰。其中涉及到的變數遠比星海爭霸還要複雜得多,面對許多難以預測的突發情況,人工智慧必須要作出正確的對策,還要根據實際情況細微的調整對策。

在直播的最後,另一場值得期待的 “大戰” 也發出了預告:芬蘭電競戰隊 ENCE 發布通告,稱 WCS《星海爭霸 2》全球總冠軍芬蘭選手 Serral 將再與 AlphaStar 上演一場人機大戰,時間訂於 2 月 15 日。

好奇心日報》授權轉載

【延伸閱讀】

 
週餘
 
 
分享文章
分享至 Line
分享至 Facebook
分享至 Twitter
收藏 已收藏
很開心您喜歡 好奇心日報 的文章, 追蹤此作者獲得第一手的好文吧!
好奇心日報
分享至 Line
分享至 Facebook
分享至 Twitter
地圖推薦
 
推薦您和本文相關的多維知識內容
什麼是地圖推薦?
推薦您和本文相關的多維知識內容