GoogleのDeepMindは、今日、研究と実験の結果を共有し、複数のAIシステムが、マルチプレイヤーの一人称シューティングゲームであるQuake III Arenaの旗をキャプチャするように訓練されました。 このプロセスで訓練されたAIは、人間または機械のチームメイトと遊んでいるかどうかにかかわらず、ゲームのほとんどの人間のプレーヤーよりも優れています。
For the Win(FTW)と名付けられたAIは、ヒューマン・プレイヤーを支配し、他のマシンや人間と効果的に連携する方法を理解するため、Quake III Arenaのゲームを450,000回近く演奏しました。 DeepMindは、複数エージェントの学習として集団行動を取るために、複数の独立して動作するエージェントを訓練する実践を指します。
「私たちは、個人として学び行動する代理人を養成しますが、他のエージェント(人工または人)とのチームで遊ぶことができなければなりません」と同社は今日 ブログ投稿 。 「マルチエージェントの観点から見ると、[キャプチャ・フラッグ]を使用するには、敵対するチームと競い合うだけでなく、チームメイトとの協力が必要です。
DeepMindはおそらくAlphaGoの作成者として最もよく知られています.AlphaGoはAIシステムです。 2017年5月に世界のトッププレーヤーに勝つ 。 AlphaGoの子孫であるAlphaGo Zeroは後で ゲーム自体を戦うことでより良く成長する 。
DeepMindの実験には、少数のプレイヤーがいる環境に焦点を当てた強化学習を中心としたビデオゲームの以前の研究がありましたが、30人のエージェントが同時に4人ずつ同時に人間またはマシンに対してプレイしていました。
40人のキャプチャ・オブ・フラッグ選手とのトーナメントでは、マシン専用チームは人間専用チームとの試合で無敗となり、人間がマシンパートナーと遊んでいたチームに対して勝利する確率は95%でした。
平均して、ヒューマンマシンチームは、2つのFTWエージェントのチームより1ゲームあたり16個のフラグを獲得しました。
エージェントはタギングにおいて人間よりも効率的であることが判明し、人間と比較して80%の時間で戦術を48%達成しました。 FTWは、タギング能力が人間に匹敵するレベルに抑えられていても、人間の選手に比べて常に優位を保っていました。
興味深いことに、人間参加者の調査は、FTWが人間のチームメートよりも協力的であることを発見しました。
作者 研究 DeepMindの創設者兼CEO Demis Hassabisが含まれます。
この研究はいくつかのユニークな課題で実施されました。
キャプチャフラッグは、より良い成果を得るためのシステムの一般的な理解を養うために、スタティックで一貫した環境ではなく、ランダムなマップレイアウトで設定されました。 平らな地形と様々な高度の屋外環境を備えた屋内環境も導入されました。 エージェントは、低速モードまたは高速モードでも動作し、独自の内部報酬システムを開発しました。
エージェントを教えるために使用された唯一の信号は、彼らのチームが5分以内に最も多くのフラグをキャプチャしてゲームを獲得したかどうかでした。
ゲームのルールはあらかじめマシンに与えられていませんでしたが、FTWはホームベースディフェンシブ、チームメイト、フラグを捕らえた後に相手の基地にキャンプアウトして基本的な戦略を学んでいました。
相手に触れてその産卵地点に戻すというタギングは、マッチを獲得するための戦術に組み込まれました。
DeepMindの研究はAIの研究者の最新のもので、機械戦略、記憶、または人間の間で共通する他の特性を訓練する方法としてビデオゲームに強化学習を適用するが、コンピュータでは自然に発生しない。
先月、OpenAIは、Dota 2をプレイしている人間の才能あるチームを打ち負かすためにAIを訓練する強化学習を使用していることを明らかにした。
マルチエージェント環境から得られる洞察は、人間と機械の相互作用を知らせたり、AIシステムを互いに補完したり、協力したりするために使用できます。
例えば、SRIインターナショナルは、DARPAの生涯学習機械研究プログラムの一環として、AIシステムを ロールプレイングゲーム「スタークラフト:リマスター」をプレイ 彼らが集団行動をとるように訓練し、キャラクターがゲーム内で行うように集団で行動したり、グループ構成で移動したりする。
DeepMindは、StarCraftでも大きな価値を見出しています。 8月、DeepMindは 強化学習のためのStarCraft II APIのリリース ブリザードとのパートナーシップの一環として