經過7萬小時訓練,OpenAI宣布做出了最強的《我的世界》AI

發布時間:2022-11-29 06:02:49
編輯:
來源:網易游戲
字體:

視頻是種潛力巨大的培訓資源。

Open AI最近公布了一項他們在人工智能領域的最新成果——最擅長玩《我的世界》的AI。

厲害到什么程度?無論是建造地堡、金字塔這些復雜的建筑,跟游戲里的惡龍戰斗,亦或是“白手起家”,制造出稀有的鉆石工具都不在話下,這些任務即使是交給熟練的人類玩家來做,往往也需要數十分鐘的流程以及上萬個點擊操作。


(相關資料圖)

AI學會自己建造傳送門

而該AI在經過訓練后,則可以在沒有任何外力輔助的情況下自主完成這一系列事件,這是此前其他AI都無法做到的。根據Open AI的介紹,能夠實現這一成果,依靠的是在模仿學習(imitation learning)技術上的新突破。

在這項技術中,AI會被訓練成通過觀察并模仿人類的行為來完成相應的任務,此前很多效果都運用到了類似的原理,比如控制機械手臂或者駕駛汽車。

既然AI需要觀察模仿,那么就勢必需要一定量的素材,而單就“熟練操作《我的世界》”而言,各大視頻網站上的學習素材其實已經非常多,完全能夠滿足AI的學習需要。

但問題是,還需要另一項額外的工作,即“讓AI準確理解視頻里的內容”。

《我的世界》是一款沒有明確目標的游戲,雖然網上素材繁多,可并不能直接拿來當作學習資料,因為視頻里的每個動作和操作,其實都需要人類為其貼上“標簽”,也就是做出相應的注釋,才能AI明白操作的含義。

如果每個動作都需要人工注釋,那效率自然會降低,為了解決這個問題,研究人員想出了一項新方法——訓練能夠自動為視頻操作貼標簽的AI。

他們先是召集了一批志愿者玩家來操作游戲,并保留了玩家們的按鍵記錄,在得到2000個小時的游戲數據后,研究人員訓練了一個新的模型,并人工將按鍵操作與游戲里的效果一一對應,比如在什么情況下點擊鼠標會讓人物揮動斧頭。

下一步便是用這個模型來處理網上海量的《我的世界》視頻,為他們貼上讓AI能夠理解的標簽。根據公布的數據,為了得到理想的效果,科研人員提供的視頻素材長達70000個小時。

而這確實也獲得了一定的成果,比如像開頭說的那樣,AI已經學會了如何自己制作鉆石工具。而Open AI的負責人Bowen Baker表示:“我們覺得《我的世界》是一個很好的研究領域。”

由于《我的世界》沒有明確的輸贏且自由度極高,所以研究人員可以訓練AI執行更多復雜的任務,而他們認為這些工作最終可以反哺到現實——如果AI能在游戲里設計一張桌子,那么在現實里沒準也行。

標簽: 我的世界 研究人員 鉆石工具

   原標題:經過7萬小時訓練,OpenAI宣布做出了最強的《我的世界》AI

>更多相關文章
最近更新