Gemini 1.5 Proの新機能と利用方法
2024年4月9日、Googleはその最先端AIモデル「Gemini 1.5 Pro」を180以上の国で利用可能にし、開発者が新しい可能性を探るための新機能を発表しました。それにより、ユーザーはより簡単にAI技術を活用し、様々なプロジェクトに応用することができます。
Gemini 1.5 Proの主な機能
- ネイティブオーディオ理解: 今回のアップデートでは、Gemini 1.5 Proが音声の理解機能を持つようになり、録音された講義などを扱うことができるようになりました。
- ファイルAPIの追加: 新たに導入されたファイルAPIにより、開発者はファイルの取り扱いを容易に行えるようになります。
- システム指示機能: モデルの応答を制御するためのシステム指示を設定できるようになり、特定の用途に応じた出力を得ることが可能です。
- JSONモード: これにより、構造化されたデータを取得するためにモデルにJSONオブジェクトのみを出力するように指示できます。
音声及び動画モダリティの革新
Gemini 1.5 Proは、音声理解機能の追加により、様々な入力モダリティが拡張されました。これにより、音声だけでなく、画像(フレーム)も考慮した推論ができるようになり、ユーザーはGoogle AI Studioにアップロードされた動画から音声を基にクイズを生成することが可能になります。たとえば、Jeff Deanの117,000トークンに及ぶ講義をアップロードすると、Gemini 1.5 Proがそれに基づいて問題を出すことができます。
APIの改良と開発者向け機能
- システム指示の設定: Google AI StudioとGemini APIで今すぐにモデルの応答を調整することができます。役割や形式、目標、ルールを指定することで、特定のユースケースに応じた動作に導くことができます。
- JSONモードの導入: テキストや画像から構造化データを抽出するために、モデルにJSONオブジェクトのみを出力させることが可能です。
- 関数呼び出しの改善: モデルの出力を制限するために選べるモードが追加され、より安定した結果を得られるようになりました。
新世代のテキスト埋め込みモデル
開発者は本日から、Gemini APIを通じて新しいテキスト埋め込みモデル「text-embedding-004」を利用できるようになります。このモデルは、MTEBベンチマークにおいて既存のモデルを上回るパフォーマンスを発揮し、特に256次元の出力で768次元のモデルよりも優れる結果を示しています。この新しい改善により、開発者は検索パフォーマンスを一層向上させることが可能になります。
今すぐGoogle AI Studioで始めよう
Gemini 1.5 Proの新機能を利用して、アイデアを形にするための便益を享受してください。Google AI Studioにアクセスし、APIキーを作成することで、新しいプロジェクトに取り組むことができます。また、新しい「Gemini API Cookbook」では、コード例やクイックスタートが用意されているため、開発者は容易に学ぶことができます。
Google AI StudioとGemini APIを使って、新しいユースケースやプロジェクトの可能性を探求してみませんか?Discordのコミュニティチャンネルにも参加して、他の開発者とつながり、より多くの情報交換と学びを楽しんでください。
この革新的な製品の進化が、開発者の手によってもたらす未来を見逃さないようにしましょう。