Google、マルチモーダルモデル「Gemini Embedding 2」を発表

Googleが新しいマルチモーダルモデル「Gemini Embedding 2」を発表

2026年3月10日、Googleは新しいマルチモーダルエンベディングモデル「Gemini Embedding 2」をPublic Previewとしてリリースしました。このモデルは、Google DeepMindのプロダクトマネージャーであるMin Choi氏と、ディスティングイッシュトエンジニアのTom Duerig氏によって発表されました。

Gemini Embedding 2の特徴

Gemini Embedding 2は、テキスト、画像、ビデオ、オーディオ、ドキュメントといった異なるデータ形式を、単一のエンベディング空間にマッピングすることができる初のネイティブマルチモーダルエンベディングモデルです。これにより、様々なデータを統合的に扱うことが可能となり、AIの応用範囲が大きく広がります。

マルチモーダル対応: テキスト、画像、ビデオ、オーディオ、ドキュメントを一つのモデルで処理できるため、異なる形式のデータを組み合わせた新しいアプリケーションが期待されます。
Gemini APIおよびVertex AIでの利用: このモデルは、GoogleのGemini APIおよびVertex AIで利用可能であり、開発者はこれを活用して新しいAIソリューションを構築することができます。

なぜ重要なのか

Gemini Embedding 2の登場は、AI技術の進化において重要なステップです。従来のモデルでは、異なるデータ形式を別々に処理する必要がありましたが、Gemini Embedding 2によってそれが一つのモデルで実現されることで、より効率的なデータ処理が可能になります。これにより、例えば、画像とテキストを組み合わせた検索エンジンや、ビデオコンテンツの自動生成など、さまざまな新しいサービスが生まれることが期待されます。

まとめ

Googleの「Gemini Embedding 2」は、AIの可能性を広げる革新的なモデルです。今後、この技術がどのように進化し、私たちの生活にどのような影響を与えるのか、注目が集まります。