訓練40個小時,AI打破了跑步遊戲QWOP的世界紀錄

更高,更快,更智能。

多年前有款奇葩跑步模擬遊戲《QWOP》,玩家只需越過障礙,以最快的速度跑完一百米即可。遊戲名的四個字母也並非縮寫或者什麼奇怪的暗示語,而是對應了操控遊戲的四個按鍵。

雖然它的操作看上去並不復雜,但在剛發佈時,甚至一度被玩家評為「史上最難的跑步遊戲」,原因則在於鍵盤上的Q、W、O、P四個按鍵控制的不是上下左右,而是人物的左右大腿和小腿,玩家需要交替控制不同關節來讓遊戲里的小人動起來。

訓練40個小時,AI打破了跑步遊戲QWOP的世界紀錄

將平時司空見慣的動作細化到肌肉層面,難度瞬間提升了數個檔次。剛接觸的玩家不要說跑,能移動個一兩米已經是奇跡,還有許多玩家是靠膝蓋一步步蹭到終點的,就像上面那樣。

目前,《QWOP》百米跑的世界最高紀錄為48秒34,是一位ID為gunmaneko的日本玩家創下的:

訓練40個小時,AI打破了跑步遊戲QWOP的世界紀錄世界紀錄排行榜

一個星期前,日本玩家保持了兩個月的紀錄被打破,只不過這次破紀錄的並非人類,而是一位科學家花40個小時訓練出來的AI。

訓練40個小時,AI打破了跑步遊戲QWOP的世界紀錄在公佈的視頻中AI用47.34秒跑完了全程,超過世界紀錄1秒

Wesley Liao是波士頓咨詢中心的一名數據分析師,他一直很好奇在人工智能已經攻克了象棋、圍棋乃至競技遊戲的今天,在面對一款規則完全不同的「沙雕」遊戲時,究竟會如何應對。

因此他想到了《QWOP》這款操作難度極高的遊戲。需要說明的是,Liao使用的訓練方法當然不是將預設好的操作提前輸入程序,而是像訓練象棋圍棋那樣設定好獎懲機制,讓AI像新手一樣一步步掌握規則,最終摸索出最優方法。

在Liao給出的實驗報告中,最開始這個名為「ACER」的AI和許多玩家一樣,採用的是「蹭膝通關法」,即用膝蓋一步步蹭到終點:

訓練40個小時,AI打破了跑步遊戲QWOP的世界紀錄

在掌握了基本的規則後,ACER並沒有像人們預想的那樣跑起來,而是學會了使用這種效率不高的前進技巧,而原因很簡單:因為這是最穩妥的通關方式,人物摔倒的幾率最小。

當發現ACER能夠熟練過關後,Liao試圖再教會它如何「跑」。為此他打算向AI提供一些人類高手的過關數據。這一點其實和DeepMind訓練Alpha Go的情況類似——讓AI模仿頂級棋手,然後再自己對弈。

只可惜Liao並不認識《QWOP》的遊戲高手,只能先提供自己的試玩數據,而他目前的最好成績僅有28米。

果不其然,在被「灌輸」了水平不高的人類數據後,ACER剛開始時試圖靠「跑」來完成遊戲,只可惜它的動作重新回到了初學者水平:

訓練40個小時,AI打破了跑步遊戲QWOP的世界紀錄這時的AI並不理解「邁腿」的意義是什麼

後來,Liao終於找到了一位世界速通玩家來協助他完成實驗。這位玩家向Liao提供了50場遊戲數據,其中就包括一些人類玩家經常使用,但AI從沒見過的高級技巧。

但就算這樣,ACER也無法馬上學會這些技巧,而且不能和之前自己掌握的經驗相協調。在經歷了自我訓練,人類數據的雙重作用下,它勉強學會了跑步,但速度還不夠,最終的紀錄是1分08秒,離世界紀錄還有一段距離。

最終Liao突發奇想,重新創建了一個AI,只給它ACER的運行數據,同時調整獎懲制度,取消了一些特殊動作,比如「膝蓋過度彎曲」的觸發懲罰,原先設定這些機制是為了教會它如何像人類一樣跑步,既然現在ACER的數據已經學會了,自然不需要這些額外的限制。

這次Liao取消了額外條件,讓AI純粹在速度方面做優化,最終在學習了ACER的跑步數據並結合自己近40個小時的訓練後,新AI跑出了47.34秒的成績,這已經打破了人類玩家所保持的紀錄。

當然,速通榜單要求提交成績的玩家為人類,所以這個紀錄暫時無法被認可。但Liao做這項研究的目的顯然不是為了破紀錄這麼簡單,觀察AI在不同遊戲環境下的反應,觀察它們如何學習,也許某一天這些經驗又能反過來指導人類,這才是科學家們真正想看到的。

來源:遊研社