RecurrentGemmaアーキテクチャの解説
Gemmaシリーズの最新の議論として、RecurrentGemmaアーキテクチャに注目しています。これは特に、長い文脈を扱う際に効率的なモデルを求める声に応えるべく開発されたものです。この新しいアーキテクチャについて、詳しく探っていきましょう。
RecurrentGemmaの基本
RecurrentGemmaは、**グリフィン**というハイブリッドモデルに基づいています。このモデルは、ゲーテッドリニア再帰とローカルスライディングウィンドウアテンションを組み合わせたものであり、計算とメモリ使用量の向上が達成されています。この改善によって、長い文脈のプロンプトを扱うのに適しているのですが、一方で**固定サイズの状態**を持つグリフィンアーキテクチャによる欠点も存在します。
- RecurrentGemmaは、長いシーケンスにおける長距離の依存関係を学ぶ際の困難さを克服するために設計されています。
- モデルは、入力の長さに関わらず、固定サイズの内部状態を維持します。
- これにより、長い記事やコードの生成など、メモリが限られるタスクでも効率的に処理できます。
パフォーマンスの維持
RecurrentGemmaは、全体の文脈ウィンドウを使い切ることを懸念するシナリオにおいて非常に有用です。最も最近の情報を優先し、古いデータを戦略的に捨てることで、コンテキストが拡張されてもLLMのパフォーマンスを維持することができます。
アーキテクチャの概要
以下は、RecurrentGemma 2Bモデルのアーキテクチャダイアグラムです。グリフィンは、他のトランスフォーマーベースラインと同様に残差パターンとMLPブロックを使用しますが、MQAトランスフォーマーベースラインやHawkモデルとは異なり、再帰的およびMQAブロックを組み合わせて利用します。以下に、主なパラメータをまとめた表を示します。
- 非埋め込みパラメータ: モデルの隠れ層全体に分配され、アテンションメカニズムやフィードフォワードネットワークなどの構成要素に含まれます。
- 埋め込みパラメータ: 埋め込みレイヤと呼ばれる専用レイヤに見られ、離散トークン(単語や文字など)を連続的なベクトル表現にマッピングします。
モデル幅とRNN幅
- モデル幅は、隠れ層のサイズを指し、モデルが複雑なパターンを表現する能力を決定します。
- RNN幅は、Real-Gated Linear Recurrent Unit(RG-LRU)が保持する隠れ状態のサイズを表します。これにより、RecurrentGemmaは長いシーケンスを処理するのがより効率的になります。
MLP拡張係数
MLP拡張係数は、元のGemmaモデルと同様に、フィードフォワード隠れ次元数に相当します。RecurrentGemmaモデルでは、シンプルさのために拡張係数を3とし、結果としてMLP次元は7680(計算による)になります。
ローカルアテンションウィンドウサイズ
RecurrentGemmaが維持する状態は有限であり、ローカルアテンションウィンドウが2000トークンを超えるシーケンスの長さで成長することはありません。この設計により、Gemmaが自己回帰的に生成するサンプルの最大長は、ホストシステムのメモリ容量によって制限されていますが、RecurrentGemmaは任意の長さのシーケンスを生成することができます。
次に何を学ぶべきか
この記事では、RecurrentGemmaについての基本的な理解を深めていただけたでしょう。次回の投稿では、**PaliGemma**という軽量のオープンビジョン・ランゲージモデルについて探求していきます。ぜひ次回もお楽しみに!
ご覧いただき、ありがとうございました。
- 参考文献: “Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models”
- 関連文書: Gemmaアーキテクチャシリーズの全容