PaliGemma 2 Mixの紹介:マルチタスク対応のビジョン・ランゲージモデル
2025年2月19日、Omar Sanseviero氏とAndreas Steiner氏は、Gemmaファミリーの新しいマルチタスク対応ビジョン・ランゲージモデルである「PaliGemma 2 mix」の発表を行いました。このモデルは、画像認識やビデオキャプション、科学的な質問応答など、さまざまなビジョン・ランゲージ関連タスクに対応しています。
PaliGemma 2の進化
PaliGemma 2は、3B、10B、28Bの異なるパラメータサイズを持つモデルを提供しており、これを利用して高性能なビジョン・ランゲージタスクを簡単に実行することができます。新たに発表されたPaliGemma 2 mixは、複数のタスクに対応したチェックポイントを備えており、一般的なユースケースにおいてすぐに利用できる点が大きな魅力です。
PaliGemma 2 mixの新機能
- マルチタスク対応:短いキャプションから長いキャプション、OCR(光学式文字認識)、画像質問応答、物体検出やセグメンテーションまで、1つのモデルで多くのタスクを遂行できます。
- 開発者フレンドリーなサイズ:ニーズに応じて、異なるモデルサイズ(3B、10B、28B)や解像度(224px、448px)から最適なモデルを選択できます。
- お好みのフレームワークで使用:Hugging Face TransformersやKeras、PyTorch、JAX、Gemma.cppなど、好みのツールとフレームワークを活用できます。
簡単なアップグレード
既に元のPaliGemma mixのチェックポイントを使用しているユーザーは、特に変更を加えることなくPaliGemma 2に直接アップグレードすることができます。モデルはプロンプトの与え方によって異なるタスクを実行します。詳細なプロンプトタスクの構文については、公式ドキュメントを参照してください。
具体的なタスク例
PaliGemma 2 mixを使用したタスクのいくつかの具体例を以下に示します。
- 物体検出:タスク:検出(PaliGemma-2-3b-mix-224)
入力量:“detect android”
結果:複数の物体が正確に検出されました。 - 光学文字認識(OCR):タスク:OCR(PaliGemma-2-3b-mix-224)
入力量:“ocr”
結果:“WARNING DANGEROUSRIP CURRENT” - セグメンテーション:タスク:セグメンテーション(PaliGemma-2-3b-mix-224)
入力量:“segment cat”
結果:画像内の猫が効果的にセグメントされました。 - 質問応答:タスク:質問応答(PaliGemma2-mix-3b-448)
入力量:“answer en where is the cow standing?”
結果:牛はビーチの近くに立っています。
始めよう、PaliGemma 2の潜在能力を発見しよう
PaliGemma 2の機能を探求する準備は整いましたか?以下の方法で、PaliGemma 2 mixの機能を体験することができます。
- デモを試す:Hugging Faceのデモを利用して、直接モデルの機能を試してみましょう。
- モデルをダウンロード:KaggleやHugging Faceからmixモデルの重みを入手できます。
- モデルの実行方法を学ぶ:Google ColabやローカルでKeras推論ノートブックを試してみましょう。
- デプロイとチューニング:Vertex Model GardenでPaliGemma 2 mixを直接使用して、簡単にデプロイとチューニングが可能です。
まとめ
PaliGemma 2 mixは、マルチタスクに対応した強力なモデルですが、自分のタスクやドメインに特化したチューニングを行うことで、更に優れた結果を得ることができます。詳細については、包括的なドキュメントを確認したり、KerasやJAXの公式サンプルノートブックを参考にすることが推奨されます。これからどのようなものが生み出されるのか、とても楽しみです!