Gemma 3の紹介:開発者向けガイド
2025年3月12日、Omar SansevieroとPhilipp Schmidによって、Gemma 3が発表されました。Gemmaはその初回のリリース以来、**1億回以上**ダウンロードされ、コミュニティによって**60,000以上のバリエーション**が作られ、様々なユースケースに対応してきました。今回紹介するGemma 3は、これまでのGemmaの成功を基にした最も能力が高く進化したバージョンです。開発チームはコミュニティからのフィードバックを元に、最もリクエストの多かった機能を追加しています。
Gemma 3の新機能
Gemma 3にはいくつかの新しい機能が追加されています。特に注目すべきはマルチモーダリティのサポートで、これは視覚と言語のインプットを扱える能力を持っています。具体的な機能は以下の通りです:
- コンテキストウィンドウ:最大128kトークンまで対応
- 言語の理解:140以上の言語を理解
- 数学的能力と推論:大幅に向上
- チャット機能:構造化された出力や関数呼び出しをサポート
さらに、Gemma 3は1B、4B、12B、27Bの4種類のサイズで提供されており、プレトレーニングモデルとして独自のユースケースやドメインに合わせて微調整が可能です。
Gemmaの構築方法
Gemmaは、モデルのパフォーマンスを向上させるために、ディスティレーション、強化学習、モデルのマージを組み合わせた最適化されたプレトレーニングおよびポストトレーニングプロセスを用いて構築されました。この結果として、数学、コーディング、指示に従う能力が大幅に向上しています。
Gemma 3のトレーニングは、GoogleのTPUを使用してJAXフレームワーク上で実行され、以下のトークン数で行われました:
- 1B:2 trillion tokens
- 4B:4 trillion tokens
- 12B:12 trillion tokens
- 27B:14 trillion tokens
また、Gemma 3のポストトレーニングには4つの主要コンポーネントが用いられています:
- 大規模インストラクモデルからのディスティレーション
- 人間のフィードバックからの強化学習(RLHF)
- 機械フィードバックからの強化学習(RLMF)
- 実行フィードバックからの強化学習(RLEF)
マルチモーダリティの特性
Gemma 3は、SigLIPに基づいた統合型ビジョンエンコーダーを持ち、これにより高解像度や非正方形の画像も扱えるようになっています。例えば、入力された画像を分析し、特定のボタンがどのような機能を範囲するのかを識別することが可能です。
ShieldGemma 2の機能
さらに、Gemma 3を基にしたShieldGemma 2という画像の安全性を分類するモデルもあります。これは、合成画像や自然画像の安全性を評価するためのラベルを出力し、安全性のモデレーションを実現します。
Gemma 3の活用方法
Gemma 3を使い始める方法はいくつかあります:
- 実験:Google AI StudioでGemma 3を数クリックで試すことができます。
- モデルのダウンロード:Hugging FaceやKaggleでモデルのウエイトを見つけることができます。
- 文書の学習と統合:技術レポートや包括的なドキュメントに目を通し、作品に迅速に統合できます。
- 開発ツールの使用:お馴染みのツールやフレームワークを活用してください。
- 展開オプション:Google GenAI APIやVertex AIなど、様々な展開オプションがあります。
Gemma 3の活用は、技術者や研究者にとって非常に面白い挑戦となることでしょう。Gemmaコミュニティの進化を楽しみにしています!