Googleの最先端画像生成モデル「Imagen 3」がGemini APIに登場
2025年2月6日、Googleは開発者が最新の画像生成モデル「Imagen 3」にアクセスできるようになったことを発表しました。このモデルへのアクセスは、当初は有料プランのユーザーに提供され、無料プランへの展開も予定されています。
Imagen 3の特徴
「Imagen 3」は、視覚的に魅力的でアーティファクトのない画像を生成する能力に優れています。以下のような幅広いスタイルを持つ画像を作成することができます:
- ハイパーリアリスティックな画像
- 印象派の風景
- 抽象的なコンポジション
- アニメキャラクター
さらに、改良されたプロンプトフォローにより、高品質な画像を素早く生成することが可能です。「Imagen 3」は、様々なベンチマークで最先端のパフォーマンスを達成しています。
コストと機能
「Imagen 3」は、Gemini APIを通じて$0.03で画像を生成することができ、アスペクト比や生成するオプションの数を制御することも可能です。これにより、開発者は必要に応じて、画像の特性を細かく調整できます。
AI生成画像の安全性
誤情報や誤認識の問題に対抗するために、すべての「Imagen 3」で生成された画像には、見えないデジタルのSynthIDウォーターマークが付加されています。これにより、AIによって生成されたことが明示され、信頼性が向上します。
「Imagen 3」を使った画像生成の実際
以下に、「Imagen 3」で実際に画像を生成するためのPythonのコードスニペットを示します。これを使って、独自の画像を生成してみましょう。
from google import genai from google.genai import types client = genai.Client(api_key='GEMINI_API_KEY') response = client.models.generate_images( model='imagen-3.0-generate-002', prompt='a portrait of a sheepadoodle wearing cape', config=types.GenerateImagesConfig( number_of_images=1 ) ) response.generated_images[0].image.show()
このコードを実行すると、「羊犬ドゥードル」がマントを着たポートレートの画像が生成されます。
さらなる情報と技術的リソース
「Imagen 3」に関するさらなるプロンプトアドバイスや画像スタイルについては、Gemini APIの開発者ドキュメントを参照してください。また、スコアや手法、パフォーマンス向上の詳細については、更新された技術報告書の付録Dに記載されています。
まとめ
「Imagen 3」は、Googleが提供する最先端の画像生成モデルであり、開発者にとって新たな創作の可能性を広げるツールとなるでしょう。効率的な画像生成、コストパフォーマンスの良さ、安全性の確保が特徴のこのモデルは、まさに今後の開発を支える重要な要素となることでしょう。
Googleはこのモデルの利用可能性を拡大し、今後も様々な生成メディアモデルをGemini APIを通じて提供する予定です。これにより、開発者は生成メディアと自然言語モデルをつなぐ架け橋としての役割を果たすことが期待されます。