Google Geminiの新機能:2Mコンテキストウィンドウ、コード実行機能、Gemma 2
2024年6月27日、Googleは開発者向けに新たな機能を発表しました。特に注目すべきは、Gemini 1.5 Proにおける2万トークンのコンテキストウィンドウ、Gemini APIでのコード実行機能、およびGoogle AI StudioへのGemma 2の追加です。これによって、開発者にとってのAI活用の幅が広がります。
長いコンテキストとコンテキストキャッシュの導入
先日行われたGoogle I/Oでは、Gemini 1.5 Proのコンテキストウィンドウが2万トークンに達することが発表され、待機リストを通じてアクセスが提供されると予告されました。それが本日、全ての開発者に解放されたのです。この拡張により、大量の情報を一度に処理することが可能になりますが、その分入力コストが増加する可能性もあります。
そこで、Googleはコンテキストキャッシュ機能を導入しました。この機能は、複数のプロンプトにわたって同じトークンを使用するタスクにおいて、コストを削減するのに役立ちます。」
コード実行機能
特に、「数学やデータ推論」に関しては、以前から大規模言語モデル(LLM)が課題を抱えていました。そこで、Googleではコード生成と実行の機能をGemini 1.5 Proおよび1.5 Flashに導入しました。この機能を使用することで、開発者はPythonコードを生成・実行し、結果を基に逐次的に学習することができるようになります。
コード実行はインターネットに接続されないサンドボックス環境で行われ、標準でいくつかの数値ライブラリが用意されています。この機能はモデルを通じてダイナミックに活用され、処理にかかるコストはモデルから生成される出力トークンに基づいて請求されます。現在、この機能はGemini APIおよびGoogle AI Studioの「高度な設定」で利用可能です。
Google AI StudioでのGemma 2の提供
Googleでは、全ての開発者がAIを活用できるように、APIキーによるGeminiモデルの統合や、オープンモデルであるGemma 2の提供を進めています。このGemma 2モデルは、開発者が実験できるようにGoogle AI Studioでアクセス可能となっています。
Gemini 1.5 Flashの本稼働
Gemini 1.5 Flashは、開発者の要望に応える形で迅速で費用対効果の高いモデルとして登場しました。既に多くの開発者がこのモデルを実際のプロダクション環境で使用し、さまざまな成果を上げています。
- Envision:視覚障害や低視力の人々が、自分の周囲をより理解できるようにサポートするアプリやスマートグラスを提供。Gemini 1.5 Flashの迅速な反応により、ユーザーは周囲のリアルタイムな説明を受け取ることができ、世界をナビゲートするのに重要な役割を果たしています。
- Plural:複雑な法律文書を要約・解析する自動化ポリシー分析プラットフォーム。これにより、NGOや政策に興味のある市民が法案の成立に影響を与えることが可能となります。
- Zapier:Gemini 1.5 Flashを利用し、生の映像から具体的な情報を抽出して自動化の新たな機会を創出する動画編集機能を実装。
- Dot:ユーザーと共に成長し、個別化されるAI。Gemini 1.5 Flashを使用し、情報圧縮のタスクにおいて安価で高性能な結果を得て、長期記憶システムを強化。
加えて、GoogleはGemini 1.5 Flashのチューニング機能を全開発者に提供できるよう取り組んでおり、「テキストチューニング」が現在、赤チームでのテストが行われており、7月中には全開発者がアクセスできるようになります。
まとめと今後の展望
これらの新機能により、開発者はより高い柔軟性と効率性を持って、Geminiモデルを活用できるようになります。Googleは開発者同士のコミュニケーションの場として、フォーラムを用意していますので、ぜひ参加してみてください。
総じて、Googleの取り組みはAI技術の普及を促進し、開発者が革新を続けるための土台を築いています。今後の進展にも目が離せません。