PaliGemma 2 mix: 新たな視覚と言語のモデルで多様なタスクを実現

PaliGemma 2 Mixの紹介：マルチタスク対応のビジョン・ランゲージモデル

2025年2月19日、Omar Sanseviero氏とAndreas Steiner氏は、Gemmaファミリーの新しいマルチタスク対応ビジョン・ランゲージモデルである「PaliGemma 2 mix」の発表を行いました。このモデルは、画像認識やビデオキャプション、科学的な質問応答など、さまざまなビジョン・ランゲージ関連タスクに対応しています。

PaliGemma 2の進化

PaliGemma 2は、3B、10B、28Bの異なるパラメータサイズを持つモデルを提供しており、これを利用して高性能なビジョン・ランゲージタスクを簡単に実行することができます。新たに発表されたPaliGemma 2 mixは、複数のタスクに対応したチェックポイントを備えており、一般的なユースケースにおいてすぐに利用できる点が大きな魅力です。

PaliGemma 2 mixの新機能

マルチタスク対応：短いキャプションから長いキャプション、OCR（光学式文字認識）、画像質問応答、物体検出やセグメンテーションまで、1つのモデルで多くのタスクを遂行できます。
開発者フレンドリーなサイズ：ニーズに応じて、異なるモデルサイズ（3B、10B、28B）や解像度（224px、448px）から最適なモデルを選択できます。
お好みのフレームワークで使用：Hugging Face TransformersやKeras、PyTorch、JAX、Gemma.cppなど、好みのツールとフレームワークを活用できます。

簡単なアップグレード

既に元のPaliGemma mixのチェックポイントを使用しているユーザーは、特に変更を加えることなくPaliGemma 2に直接アップグレードすることができます。モデルはプロンプトの与え方によって異なるタスクを実行します。詳細なプロンプトタスクの構文については、公式ドキュメントを参照してください。

具体的なタスク例

PaliGemma 2 mixを使用したタスクのいくつかの具体例を以下に示します。

物体検出：タスク：検出（PaliGemma-2-3b-mix-224）
入力量：“detect android”
結果：複数の物体が正確に検出されました。
光学文字認識（OCR）：タスク：OCR（PaliGemma-2-3b-mix-224）
入力量：“ocr”
結果：“WARNING DANGEROUSRIP CURRENT”
セグメンテーション：タスク：セグメンテーション（PaliGemma-2-3b-mix-224）
入力量：“segment cat”
結果：画像内の猫が効果的にセグメントされました。
質問応答：タスク：質問応答（PaliGemma2-mix-3b-448）
入力量：“answer en where is the cow standing?”
結果：牛はビーチの近くに立っています。

始めよう、PaliGemma 2の潜在能力を発見しよう

PaliGemma 2の機能を探求する準備は整いましたか？以下の方法で、PaliGemma 2 mixの機能を体験することができます。

デモを試す：Hugging Faceのデモを利用して、直接モデルの機能を試してみましょう。
モデルをダウンロード：KaggleやHugging Faceからmixモデルの重みを入手できます。
モデルの実行方法を学ぶ：Google ColabやローカルでKeras推論ノートブックを試してみましょう。
デプロイとチューニング：Vertex Model GardenでPaliGemma 2 mixを直接使用して、簡単にデプロイとチューニングが可能です。

まとめ

PaliGemma 2 mixは、マルチタスクに対応した強力なモデルですが、自分のタスクやドメインに特化したチューニングを行うことで、更に優れた結果を得ることができます。詳細については、包括的なドキュメントを確認したり、KerasやJAXの公式サンプルノートブックを参考にすることが推奨されます。これからどのようなものが生み出されるのか、とても楽しみです！

PaliGemma 2 Mixの紹介：マルチタスク対応のビジョン・ランゲージモデル

PaliGemma 2の進化

PaliGemma 2 mixの新機能

簡単なアップグレード

具体的なタスク例

始めよう、PaliGemma 2の潜在能力を発見しよう

まとめ

おすすめ

小さなテストは、ローカルレビューで使用されているキーワードがGoogleランキング/ Googleに影響を与えないことを示しています

グーグルスタディアは今YouTubeライブストリーミングを特集します / グーグル

Googleは、その伝統的なカラーパレットでGmailロゴを再設計 / グーグル