PaliGemma 2 mix: 新たな視覚と言語のモデルで多様なタスクを実現

PaliGemma 2 Mixの紹介:マルチタスク対応のビジョン・ランゲージモデル

2025年2月19日、Omar Sanseviero氏とAndreas Steiner氏は、Gemmaファミリーの新しいマルチタスク対応ビジョン・ランゲージモデルである「PaliGemma 2 mix」の発表を行いました。このモデルは、画像認識やビデオキャプション、科学的な質問応答など、さまざまなビジョン・ランゲージ関連タスクに対応しています。

PaliGemma 2の進化

PaliGemma 2は、3B、10B、28Bの異なるパラメータサイズを持つモデルを提供しており、これを利用して高性能なビジョン・ランゲージタスクを簡単に実行することができます。新たに発表されたPaliGemma 2 mixは、複数のタスクに対応したチェックポイントを備えており、一般的なユースケースにおいてすぐに利用できる点が大きな魅力です。

PaliGemma 2 mixの新機能

  • マルチタスク対応:短いキャプションから長いキャプション、OCR(光学式文字認識)、画像質問応答、物体検出やセグメンテーションまで、1つのモデルで多くのタスクを遂行できます。
  • 開発者フレンドリーなサイズ:ニーズに応じて、異なるモデルサイズ(3B、10B、28B)や解像度(224px、448px)から最適なモデルを選択できます。
  • お好みのフレームワークで使用:Hugging Face TransformersやKeras、PyTorch、JAX、Gemma.cppなど、好みのツールとフレームワークを活用できます。

簡単なアップグレード

既に元のPaliGemma mixのチェックポイントを使用しているユーザーは、特に変更を加えることなくPaliGemma 2に直接アップグレードすることができます。モデルはプロンプトの与え方によって異なるタスクを実行します。詳細なプロンプトタスクの構文については、公式ドキュメントを参照してください。

具体的なタスク例

PaliGemma 2 mixを使用したタスクのいくつかの具体例を以下に示します。

  • 物体検出:タスク:検出(PaliGemma-2-3b-mix-224)
    入力量:“detect android”
    結果:複数の物体が正確に検出されました。
  • 光学文字認識(OCR):タスク:OCR(PaliGemma-2-3b-mix-224)
    入力量:“ocr”
    結果:“WARNING DANGEROUSRIP CURRENT”
  • セグメンテーション:タスク:セグメンテーション(PaliGemma-2-3b-mix-224)
    入力量:“segment cat”
    結果:画像内の猫が効果的にセグメントされました。
  • 質問応答:タスク:質問応答(PaliGemma2-mix-3b-448)
    入力量:“answer en where is the cow standing?”
    結果:牛はビーチの近くに立っています。

始めよう、PaliGemma 2の潜在能力を発見しよう

PaliGemma 2の機能を探求する準備は整いましたか?以下の方法で、PaliGemma 2 mixの機能を体験することができます。

  • デモを試す:Hugging Faceのデモを利用して、直接モデルの機能を試してみましょう。
  • モデルをダウンロード:KaggleやHugging Faceからmixモデルの重みを入手できます。
  • モデルの実行方法を学ぶ:Google ColabやローカルでKeras推論ノートブックを試してみましょう。
  • デプロイとチューニング:Vertex Model GardenでPaliGemma 2 mixを直接使用して、簡単にデプロイとチューニングが可能です。

まとめ

PaliGemma 2 mixは、マルチタスクに対応した強力なモデルですが、自分のタスクやドメインに特化したチューニングを行うことで、更に優れた結果を得ることができます。詳細については、包括的なドキュメントを確認したり、KerasやJAXの公式サンプルノートブックを参考にすることが推奨されます。これからどのようなものが生み出されるのか、とても楽しみです!