通常用於訓練狗狗的正強化法可幫助科學家教機器人學習新技巧

據外媒報道,世界上可能沒有一家機器人師范學院在積極開展機器人學習。畢竟,這個領域掌握着開啟行業大量潛力的鑰匙。讓它如此引人注目的事情之一是,如此多的研究人員正在採取無數不同的方法來解開幫助機器人本質上從頭學習的秘密。約翰斯·霍普金斯大學的一篇新論文以 “好機器人 “為題,探討了通過正強化學習的潛力。這個標題來源於作者Andrew Hundt關於教他的狗不要追逐松鼠的軼事。

通常用於訓練狗狗的正強化法可幫助科學家教機器人學習新技巧

但這個想法的核心是,當機器人做對了事情時,要給它一些激勵,而不是當它做錯了事情時,要給它一些懲罰。對於機器人來說,激勵措施以評分系統的形式出現–本質上是一種遊戲化,根據正確執行任務的情況獎勵若干積分。

這位博士生表示,這種方法能夠大大縮短任務的訓練時間。「機器人希望得到更高的分數,」Hundt在與研究相關的新聞稿中說。「它很快就學會了正確的行為,以獲得最好的獎勵。事實上,過去機器人需要一個月的練習才能達到100%的准確性。我們能夠在兩天內完成。」

這些任務仍然是相當初級的,包括堆積積木和在視頻遊戲中導航,但人們希望未來的機器人能夠努力完成更復雜和有用的現實世界任務。

來源:cnBeta