次世代のマルチモダール生成AIモデル「Gemini」を発表（Google DeepMind）

12月6日(米国時間)、Google DeepMindは、かねてより開発を表明していた次世代のマルチモダール生成AIモデル「Gemini」を発表しました。現状は英語ながら、一部サービスは本日より利用開始しています。提供地域には日本も含まれています。「文字」「音声」「画像」「動画」「コード」などを同時に処理することが可能で、最上位モデルではGPT-4を超える性能を達成しているほか、同時に公開されたハンズオン（Hands-on）ムービーでは、極めて自然な受け答えをしている様子を確認できます。また、Pixel 8 Pro向けには、OSに組み込まれた「AICore」のアップデートとして、Gemini Nanoが搭載されるようです。

Welcome to the Gemini era（Google DeepMind）
Introducing Gemini: our largest and most capable AI model（12/6 blog.google）

Gemini Ultr Gemini Pro Gemini Nano — Gemini Ultra / Gemini Pro / Gemini Nano / Google

「Gemini Ultra」は、最大かつ最も有能なモデルで、2024年以降に利用可能になる予定です。「Gemini Pro」は、幅広いタスクに対応するための最良のモデルです。発表と同時に、Googleの「Bard」がGemini Proベースのものにアップグレードされ、既に利用可能になっています。「Gemini Nano」は、デバイス組み込み向けの最も効率的なモデルです。発表と同時にPixel 8 Proで利用可能となっています。

マルチモーダル（multimodal）とは、画像だけ・テキストだけといった形ではなく、人間と同じように「画像」「文字」「音声」「動画」といった複数の要素を同時に扱う能力のことです。最近の生成AIでは大きなテーマとなっていますが、Geminiは「ゼロから、マルチモーダルであることを前提にトレーニングした」ことが特徴としています。

Hands-on with Gemini: Interacting with multimodal AI

今日の大規模なモデルは、数千億、さらには数兆のパラメータを備えており、最も特殊なシステムであっても、場合によっては数か月に及ぶ広範なトレーニング期間を必要とします。これらの課題に対処するために、これまでで最も強力でスケーラブルで柔軟なアクセラレータである「Cloud TPU v5p」を発表しました。TPU（Cloud Tensor Processing Unit）は、YouTube、Gmail、Googleマップ、Google Play、Android などの AIを活用した製品のトレーニングとサービスの基盤として使用されています。

「Cloud TPU v5p」は、特に生成AIで使う大規模言語モデル(LLM)において、「TPU v4」の2.8倍の速度が出るとしています。今回はこれをマルチモダール生成AIモデル「Gemini」のトレーニングとサービス基盤に全面展開しています。