コンテンツへスキップ
Robot Table Tennis

人間と対戦しながら上達する卓球ロボットを開発(Google DeepMind)

Google DeepMindは、卓球の試合で人間と対戦できるロボットを開発しました。この卓球ロボットは、初心者の人間には全勝し、アマチュア・レベルの人間が相手の場合では55%の勝率を記録しましたが、上級者を相手にすると全敗しました。29試合中13試合に勝利することに成功した研究内容を arXiv(アーカイヴ)に査読前論文として発表しました。人間レベルでスポーツをすることができる最初のロボットエージェントであり、その学習と制御におけるマイルストーンとしています。

Robot Table Tennis
Achieving Human Level Competitive Robot Table Tennis / Google DeepMind

Google DeepMindの上級ソフトウェア・エンジニアで、このプロジェクトを率いたパンナグ・サンケティ(Pannag Sanketi)氏は、「数カ月前の時点でも、現実的に考えると、ロボットが対戦したことのない相手に勝つのは難しいと予想していました。このシステムは明らかに、我々の期待を上回りました」そして、「ロボットが強い相手をも打ち負かす姿には驚かされました」と述べています。

人間が熟達した卓球選手になるには、手と目を協調させる優れた能力、すばやく動く能力、相手に反応するすばやい判断力が必要ですが、これらの能力はロボットにとってすべて困難な課題となります。Google DeepMindの研究チームは、これらの能力を模倣するようにシステムを訓練するために、2種類の手法を使っています。打撃技術を習得するようシステムを訓練するためにコンピュータ・シミュレーションを利用し、その後、実世界のデータで微調整することで、時間の経過と共に改善できるようにしています。

研究チームは、位置、スピン、速度など、卓球のボールの状態を表すデータセットを構築。ロボットシステムは、卓球の試合を物理的に正確に反映するように設計されたシミュレーション環境で、このデータセットからデータを取得し、サーブのリターン、フォアハンドでのトップスピン、バックハンド・ショットの打ち方などのスキルを習得しました。

人間相手の試合中、ロボットは自分のパフォーマンスに関するデータを収集し、スキル向上に役立てるようにしています。ロボットは、2台のカメラが捉えたデータを使ってボールの位置を追跡し、対戦相手のラケットに付いているLEDを利用したモーション・キャプチャー・システムで、相手のプレー・スタイルを追跡します。ボールのデータは訓練用のシミュレーションにフィードバックされ、継続的なフィードバック・ループが形成されます。

このフィードバックにより、ロボットは相手に勝つために新たに習得したスキルを試すことができます。つまり、人間と同じように戦術や振る舞いを調整できるのです。これは、1試合を通じて、また試合を重ねるごとに、ロボットが戦術も振る舞いも徐々に上達させていくことを意味します。

Table Tennis
Hierarchical Control / Google DeepMind

ハイレベルコントローラー(HLC)は、まず使用するスタイル(フォアハンド/バックハンド)を決定します。ツリー検索、ヒューリスティック、対戦相手の統計(長所/短所)を使用して、スキル記述子を使用しローレベルコントローラて(LLC)をショートリストします。対戦相手に対するゲーム統計に基づいて、各LLCのオンライン設定(H 値)を維持します。

最も効果的なスキルを選択するため、 HLCは適応されたH値に従って、候補リストに載ったLLCをサンプリングします。H値と対戦相手の統計は、試合が終了するまで継続的に更新されます。

GoogleのAI言語スキルをヘルパーロボット(Everyday Robots)が獲得


コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA


このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください