GoogleのDeepMindはQuake III ArenaをプレイしてAIチームワークを教えた

GoogleのDeepMindは、今日、研究と実験の結果を共有し、複数のAIシステムが、マルチプレイヤーの一人称シューティングゲームであるQuake III Arenaの旗をキャプチャするように訓練されました。このプロセスで訓練されたAIは、人間または機械のチームメイトと遊んでいるかどうかにかかわらず、ゲームのほとんどの人間のプレーヤーよりも優れています。

For the Win（FTW）と名付けられたAIは、ヒューマン・プレイヤーを支配し、他のマシンや人間と効果的に連携する方法を理解するため、Quake III Arenaのゲームを450,000回近く演奏しました。 DeepMindは、複数エージェントの学習として集団行動を取るために、複数の独立して動作するエージェントを訓練する実践を指します。

「私たちは、個人として学び行動する代理人を養成しますが、他のエージェント（人工または人）とのチームで遊ぶことができなければなりません」と同社は今日ブログ投稿。「マルチエージェントの観点から見ると、[キャプチャ・フラッグ]を使用するには、敵対するチームと競い合うだけでなく、チームメイトとの協力が必要です。

DeepMindはおそらくAlphaGoの作成者として最もよく知られています.AlphaGoはAIシステムです。 2017年5月に世界のトッププレーヤーに勝つ。 AlphaGoの子孫であるAlphaGo Zeroは後でゲーム自体を戦うことでより良く成長する。

DeepMindの実験には、少数のプレイヤーがいる環境に焦点を当てた強化学習を中心としたビデオゲームの以前の研究がありましたが、30人のエージェントが同時に4人ずつ同時に人間またはマシンに対してプレイしていました。

40人のキャプチャ・オブ・フラッグ選手とのトーナメントでは、マシン専用チームは人間専用チームとの試合で無敗となり、人間がマシンパートナーと遊んでいたチームに対して勝利する確率は95％でした。

平均して、ヒューマンマシンチームは、2つのFTWエージェントのチームより1ゲームあたり16個のフラグを獲得しました。

エージェントはタギングにおいて人間よりも効率的であることが判明し、人間と比較して80％の時間で戦術を48％達成しました。 FTWは、タギング能力が人間に匹敵するレベルに抑えられていても、人間の選手に比べて常に優位を保っていました。

興味深いことに、人間参加者の調査は、FTWが人間のチームメートよりも協力的であることを発見しました。

作者研究 DeepMindの創設者兼CEO Demis Hassabisが含まれます。

この研究はいくつかのユニークな課題で実施されました。

キャプチャフラッグは、より良い成果を得るためのシステムの一般的な理解を養うために、スタティックで一貫した環境ではなく、ランダムなマップレイアウトで設定されました。平らな地形と様々な高度の屋外環境を備えた屋内環境も導入されました。エージェントは、低速モードまたは高速モードでも動作し、独自の内部報酬システムを開発しました。

エージェントを教えるために使用された唯一の信号は、彼らのチームが5分以内に最も多くのフラグをキャプチャしてゲームを獲得したかどうかでした。