最新のGemini Embeddingモデルのご紹介
2025年3月7日、Googleは新しい実験的なGemini Embeddingテキストモデル(gemini-embedding-exp-03-07)をGemini APIを通じて公開しました。この新しい埋め込みモデルは、Geminiモデル自体を基に訓練されており、言語や微妙な文脈を理解する能力を備えています。これにより、さまざまな用途に適用可能となっています。
Gemini Embeddingの優れた性能
この新しいモデルは、従来の最先端モデル(text-embedding-004)を上回る性能を発揮し、Massive Text Embedding Benchmark (MTEB)の多言語リーダーボードでトップランクを達成しています。また、新機能として、より長い入力トークン長が利用可能となりました。
ビジネスや科学など多様な分野で活躍
このモデルは非常に一般的な設計がされており、金融、科学、法務、検索などの多様なドメインでの優れたパフォーマンスを提供します。特定のタスクのために extensive なファインチューニングを行う必要はなく、アウトオブボックスで効果的に機能します。
例えば、MTEBの多言語リーダーボードでは、さまざまなタスクのスコアが評価されており、Gemini Embeddingモデルは68.32の平均タスクスコアを達成しています。これは、次に競合するモデルとの差が5.81ポイントという卓越した成果です。
なぜ埋め込みが重要なのか?
埋め込みは、知的な検索強化生成(RAG)やレコメンデーションシステムの構築、テキスト分類など、テキストの意味を理解する能力を必要とするさまざまなアプリケーションで非常に重要です。埋め込みは、データの数値的な表現を通じて意味と文脈を表現します。意味が類似するデータは、近い埋め込みを持つため、さまざまなアプリケーションが可能になります。
- 効率的な取得:クエリとドキュメントの埋め込みを比較することで、大規模データベース内の関連書類を見つけます。例えば、法的文書の取得や企業の検索に利用されます。
- 検索強化生成 (RAG):モデルの文脈に関連情報を取り込み、生成されるテキストの質や関連性を向上させます。
- クラスタリングとカテゴリ化:データ内のトレンドやトピックを特定することで、類似したテキストをグループ分けします。
- 分類:感情分析やスパム検出など、内容に基づいてテキストを自動的に分類します。
- テキストの類似性:重複コンテンツを特定し、Webページの重複排除や盗作検出などに利用します。
Gemini Embeddingを使い始める
開発者は、Gemini APIを通じて新しい実験的なGemini Embeddingモデルにアクセス可能です。このモデルは、既存の埋め込みコンテンツエンドポイントと互換性があります。以下のように簡単に利用することができます:
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
result = client.models.embed_content(
model="gemini-embedding-exp-03-07",
contents="How does alphafold work?",
)
print(result.embeddings)
Gemini Embeddingの主な特徴
- 入力トークン制限:8Kトークンの入力制限を設け、より大きなテキストやコードを埋め込むことが可能になりました。
- 出力次元:出力の次元は3Kで、以前の埋め込みモデルと比較してほぼ4倍の高次元を実現しています。
- マトリョーシカ表現学習(MRL):元の3K次元をトリミングして、希望するストレージコストに合わせることができます。
- 拡張された言語サポート:サポートする言語の数が100以上に倍増しました。
- 統一モデル:このモデルは、以前のタスク特化型、多言語、英語のみ、コード特化型のモデルの品質を上回ります。
実験段階の重要性
現在、このリリースは実験的な段階にあり、限られたキャパシティで運営されています。しかし、これはGemini Embeddingの能力を探求する早期の機会を提供しています。実験モデルは変化する可能性があるため、今後数ヶ月内に安定版として一般公開を目指しています。
埋め込みに関するフィードバックは、フィードバックフォームからお送りいただけます。皆さんからの意見をお待ちしています。