3月12日、Google DeepMindはロボット向けAIモデルを2つ発表しました。1つは視覚と言語を行動に変換できるVLA(Visual Language Action)モデル「Gemini Robotics」。もう1つは⾼度な空間認識が可能な大規模視覚言語モデル(VLM)「Gemini Robotics-ER(embodied reasoning)」です。AIモデル「Gemini2.0」を基にして、これまで以上に幅広い実世界のタスクを実行できるようになっています。取組みの一環として、Apptronikと提携して次世代の人型ロボット(Humanoid robot)の構築を進めています。
- Gemini Robotics(Google DeepMind)Wait List
- Gemini Robotics brings AI into the physical world(3/12 Google DeepMind)

Geminiが複雑な問題を解決する方法に進歩を遂げてきましたが、それらの能力は主にデジタル領域に限定されています。AI が物理的な領域で人々にとって有用で役立つためには、AIが「具現化された」推論、つまり周囲の世界を理解して反応する人間のような能力を示し、安全に行動して物事を成し遂げる必要があります。
ロボット用の AIモデルが人々にとって有用で役立つものとなるには、3つの主要な特性が必要です。「汎用性」さまざまな状況に適応できること、「対話性」指示や環境の変化を理解して迅速に対応できること、そして「器用さ」物体を慎重に操作するなど、一般的に人が手や指で行えるような操作ができることが必要です。
Gemini Roboticsは「汎用性」「対話性」「器用さ」これらすべての領域でパフォーマンスが大幅に向上、真に多目的なロボットの実現に近づいているとしています。
汎用性(Generality)
Gemini2.0の理解力を活用して「新しい状況」を一般化し、トレーニングでこれまで見たことのないタスクを含むさまざまなタスクをすぐに解決します。この動画で初めて目にするバスケットボールを模したミニゲームというタスクでもシュートを成功させる様子があります。
対話性(Interactivity)
Gemini2.0を基盤として構築されているため、直感的にインタラクティブです。Geminiの高度な言語理解機能を活用し、日常会話やさまざまな言語で表現されたコマンドを理解して応答できます。
器用さ(Dexterity)
役に立つロボットを作るための3番目の重要な柱は器用さです。しかし、人間が楽々とこなす日常の作業は、驚くほど細かい運動能力を必要としてロボットには難しいのです。今日、急速に進歩してきた「Gemini Robotics」では折り紙を折ったり、おやつをジップロックバッグに詰めたりといった、精密な操作を必要とする極めて複雑な複数ステップの作業に取り組むことができるようになっています。
Googleでは、Apptronikと提携し、Gemini 2.0を搭載した次世代の人型ロボットを開発中です。また、Agile Robots、Agility Robots、Boston Dynamics、Enchanted Toolsらのテスターと協力し、Gemini Robotics-ERの将来展開に向けた作業を進めています。