訓練40個小時，AI打破了跑步遊戲QWOP的世界紀錄

更高，更快，更智能。

多年前有款奇葩跑步模擬遊戲《QWOP》，玩家只需越過障礙，以最快的速度跑完一百米即可。遊戲名的四個字母也並非縮寫或者什麼奇怪的暗示語，而是對應了操控遊戲的四個按鍵。

雖然它的操作看上去並不復雜，但在剛發佈時，甚至一度被玩家評為「史上最難的跑步遊戲」，原因則在於鍵盤上的Q、W、O、P四個按鍵控制的不是上下左右，而是人物的左右大腿和小腿，玩家需要交替控制不同關節來讓遊戲里的小人動起來。

將平時司空見慣的動作細化到肌肉層面，難度瞬間提升了數個檔次。剛接觸的玩家不要說跑，能移動個一兩米已經是奇跡，還有許多玩家是靠膝蓋一步步蹭到終點的，就像上面那樣。

目前，《QWOP》百米跑的世界最高紀錄為48秒34，是一位ID為gunmaneko的日本玩家創下的：

世界紀錄排行榜

一個星期前，日本玩家保持了兩個月的紀錄被打破，只不過這次破紀錄的並非人類，而是一位科學家花40個小時訓練出來的AI。

在公佈的視頻中AI用47.34秒跑完了全程，超過世界紀錄1秒

Wesley Liao是波士頓咨詢中心的一名數據分析師，他一直很好奇在人工智能已經攻克了象棋、圍棋乃至競技遊戲的今天，在面對一款規則完全不同的「沙雕」遊戲時，究竟會如何應對。

因此他想到了《QWOP》這款操作難度極高的遊戲。需要說明的是，Liao使用的訓練方法當然不是將預設好的操作提前輸入程序，而是像訓練象棋圍棋那樣設定好獎懲機制，讓AI像新手一樣一步步掌握規則，最終摸索出最優方法。

在Liao給出的實驗報告中，最開始這個名為「ACER」的AI和許多玩家一樣，採用的是「蹭膝通關法」，即用膝蓋一步步蹭到終點：

在掌握了基本的規則後，ACER並沒有像人們預想的那樣跑起來，而是學會了使用這種效率不高的前進技巧，而原因很簡單：因為這是最穩妥的通關方式，人物摔倒的幾率最小。

當發現ACER能夠熟練過關後，Liao試圖再教會它如何「跑」。為此他打算向AI提供一些人類高手的過關數據。這一點其實和DeepMind訓練Alpha Go的情況類似——讓AI模仿頂級棋手，然後再自己對弈。

只可惜Liao並不認識《QWOP》的遊戲高手，只能先提供自己的試玩數據，而他目前的最好成績僅有28米。

果不其然，在被「灌輸」了水平不高的人類數據後，ACER剛開始時試圖靠「跑」來完成遊戲，只可惜它的動作重新回到了初學者水平：

這時的AI並不理解「邁腿」的意義是什麼

後來，Liao終於找到了一位世界速通玩家來協助他完成實驗。這位玩家向Liao提供了50場遊戲數據，其中就包括一些人類玩家經常使用，但AI從沒見過的高級技巧。

但就算這樣，ACER也無法馬上學會這些技巧，而且不能和之前自己掌握的經驗相協調。在經歷了自我訓練，人類數據的雙重作用下，它勉強學會了跑步，但速度還不夠，最終的紀錄是1分08秒，離世界紀錄還有一段距離。

最終Liao突發奇想，重新創建了一個AI，只給它ACER的運行數據，同時調整獎懲制度，取消了一些特殊動作，比如「膝蓋過度彎曲」的觸發懲罰，原先設定這些機制是為了教會它如何像人類一樣跑步，既然現在ACER的數據已經學會了，自然不需要這些額外的限制。

這次Liao取消了額外條件，讓AI純粹在速度方面做優化，最終在學習了ACER的跑步數據並結合自己近40個小時的訓練後，新AI跑出了47.34秒的成績，這已經打破了人類玩家所保持的紀錄。

當然，速通榜單要求提交成績的玩家為人類，所以這個紀錄暫時無法被認可。但Liao做這項研究的目的顯然不是為了破紀錄這麼簡單，觀察AI在不同遊戲環境下的反應，觀察它們如何學習，也許某一天這些經驗又能反過來指導人類，這才是科學家們真正想看到的。

來源：遊研社