Gemma 2の紹介:最新のオープンモデルのすべて
最近、Googleは新たに開発したオープンモデルのスイート「Gemma 2」を発表しました。この新しいモデルはパフォーマンスとアクセシビリティにおいて新しい基準を設けています。この記事では、Gemma 2の特徴、技術的な革新点、開発者向けの利点などについて詳しく見ていきましょう。
Gemma 2の概要
Gemma 2は、**2B、9B、27B**という異なるパラメータサイズで利用可能です。この中で、27BモデルはLMSYSのチャットボットアリーナリーダーボードにおいて、サイズが二倍以上の人気モデルを上回るパフォーマンスを発揮し、一躍高評価モデルとしての地位を確立しました。一方で、2Bモデルは、エッジデバイスで実行可能なサイズでありながら、GPT-3.5モデルをすべて上回る優れた会話AI能力を示しています。
開発者向けの強力な調整機能
Gemma 2は、開発者がハードウェア構成に応じた効率的な展開を行うために、Google Cloudなどのクラウドベースのソリューションや、Axolotlのようなコミュニティツールを通じて簡素化されたファインチューニングが可能です。また、Hugging FaceやNVIDIA TensorRT-LLMなどのパートナーとのシームレスな統合により、パフォーマンスの最適化が図られています。
Gemma 2のコアパラメータ
Gemma 2は、元のGemmaモデルと類似のアーキテクチャを共有していますが、いくつかの新しいアーキテクチャの革新点を導入しています。
- 局所的および全体的注意の交互利用:全ての単語を一度に考えるのではなく、時には小さな単語のウィンドウにフォーカスし、時には全ての単語に注目します。この組み合わせにより、モデルは即時の文脈と全体の意味を効率的に理解できます。
- ロジットソフトキャッピング:モデルが特定の単語に対して過度に自信を持つことを防ぎ、予測の精度を向上させます。
- RMSNormによる前後正規化:計算が過剰または不足になるのを防ぐためのメカニズムを提供します。これにより、安定したモデルのトレーニングが可能になります。
- グループクエリアテンション(GQA):情報を効率よく処理するこの技術は、大量のテキストを扱う際に効果を発揮します。従来の多頭注意(MHA)を改善し、より速い処理を実現します。
Gemma 2 の主な発見
技術レポートには詳細が含まれていますが、以下はGemma 2の主な発見のサマリーです。
- 蒸留 vs. スクラッチからのトレーニング:2Bおよび9Bモデルは、大型モデル(27B)からの知識蒸留によってトレーニングされました。大型モデルからの蒸留は、同数のトレーニングトークンにおいても顕著なパフォーマンスの向上をもたらします。
- グループクエリアテンション vs. 多頭注意:GQAにより、パフォーマンスは同等ながら、パラメータ効率と推論時間の短縮が実現されました。
- モデルの深さと幅:同じパラメータ数の場合、より深いモデルはわずかに優れたパフォーマンスを示しました。
今後の展望
この記事では、次世代のGemmaモデルであるGemma 2について学びました。次回の記事では、Griffinに基づくオープンモデル「RecurrentGemma」を探求する予定です。また、AIの世界に興味がある方は、goo.gle/ai-podcastにアクセスするか、「People of AI Podcast」をお好きなポッドキャストプラットフォームで検索してみてください。
読んでいただき、ありがとうございます。引き続きご注目ください!