經過7萬小時訓練後,AI學會了玩《我的世界》

AI擊敗末影龍指日可待。

2019年,為了研究分析AI與兒童的智力差距,一群世界頂級科研人員在卡內基梅隆大學和微軟的共同資助下舉辦了一場名為「MineRL」的比賽,以知名遊戲《我的世界》為舞台,讓接受訓練的AI在限定的時間內尋找遊戲中的稀有物品——鑽石。

考慮到一位普通兒童在觀看10分鍾的教學視頻後便能自主遊玩《我的世界》,這項挑戰在外行來看似乎並不是很困難,但事實是,參賽的AI們在長達4天的限時挑戰里執行了超過800萬次操作之後,仍未能順利達成目標。

在這之後,MineRL競賽成了一年一度的科研項目,每年都會有不少探索AI前沿技術的學者帶著他們精心調教的AI來《我的世界》里挖鑽石。而去年的MineRL大賽更是吸引了海內外近60支隊伍參賽,超過400名研究人員同台競技,其關注度可見一斑。

而到了最近,知名AI科技公司OpenAI終於實現了技術突破,提前殺死了比賽。根據他們於6月23日發布的論文來看,由他們訓練的AI已經做到了熟練遊玩《我的世界》,挖鑽石對他們家的AI來說早已不在話下,畢竟它目前已經掌握了只有人類才能領悟的高階玩法:

經過7萬小時訓練後,AI學會了玩《我的世界》

為了讓AI真正做到像人類一樣「玩遊戲」,OpenAI的研究人員引入了一種新穎且便捷的AI訓練法:視頻預訓練(Video PreTraining)。他們通過從相關合作方處獲取《我的世界》演示視頻以及與視頻配套的鍵盤滑鼠操作記錄,並根據這些操作習慣建立逆動力學模型(inverse dynamics model)以推測模擬視頻內的鍵鼠操作邏輯,此後再反復推演全世界的《我的世界》視頻以模擬人類的遊玩習慣。

經過7萬小時訓練後,AI學會了玩《我的世界》

在「被迫」觀看了7萬小時的視頻後,OpenAI旗下的AI的操作已經相當傳神:氧氣稀少時會主動浮出水面、餓肚子了會啃腐肉充飢,而在研究人員的數據微調後,AI掌握了更加進階的操作,包括搜刮隨機村莊里的寶箱,以及搭建一個簡陋的「火柴盒」。

經過7萬小時訓練後,AI學會了玩《我的世界》

至於同行們費盡心血鑽研的挖鑽石的方法,OpenAI也通過強化學習構建了一套科學合理的計算機模型。從獲取木頭開始,到在工作檯上做出一把鑽石鎬,總計需要24000次操作,對於較為熟練的老玩家來說,完成這套流程的時長大概在20分鍾左右,而如今的AI在經歷了大規模訓練過後,收集鑽石的效率足以比肩人類。

經過7萬小時訓練後,AI學會了玩《我的世界》

目前,OpenAI已經向MineRL大賽提交了他們研究的預訓練模型,而今年參賽的科研隊伍也能在此模型的基礎上根據自己的主攻方向進行微調。考慮到OpenAI優秀的訓練成果,想必今年的MineRL大賽會是一場堪比神仙打架的高端對局,說不定不久之後,AI已經開始研究如何速通了。

來源:遊研社