
Transformerの3つの投影は必要か──QKV変種の体系的研究
TL;DR: 研究者がTransformerの注意機構における投影共有の3つの制約を体系的に評価した結果、投影共有モデルが標準的なQKVモデルと同等かより優れた性能を示し、言語モデリングで50%のKVキャッシュ削減を達成することが判明した。
arXiv.orgに2026年6月1日掲載された研究論文によると、Anusha Madan Gopalらの研究チームは、Transformer注意機構における投影共有制約の影響を体系的に評価した。評価対象は3つの投影共有パターン――Q-K=V(キー・バリュー共有)、Q=K-V(クエリ・キー共有)、Q=K=V(単一投影)――である。
実験対象と手法
研究チームは、合成タスク、ビジョンタスク(MNIST、CIFAR、TinyImageNet、異常検知)、言語モデリングにわたって検証を実施した。言語モデリング実験では、300Mおよび1.2Bパラメータモデルを10Bトークンで学習させた。これらの変種が注意マップの対称性に及ぼす影響も調査し、Q=K-VおよびQ=K=Vは対称的な注意マップを生成することが確認された。また、2次元位置符号化を用いた非対称注意の探索も行われた。
性能とキャッシュ削減効果
投影共有モデルは標準的なQKVモデルと同等かそれ以上の性能を示すとみられている。言語モデリングでは、Q-K=V投影共有により、わずか3.1%のパープレキシティ低下で50%のKVキャッシュ削減を実現した。投影共有はヘッド共有(GQA/MQA)と相補的であり、Q-K=VをGQA-4と組み合わせると87.5%のキャッシュ削減を、MQAと組み合わせると96.9%のキャッシュ削減を達成する。
理論的背景と特性
Q-K=Vが品質を維持する理由は、キーとバリューが類似の表現空間を占有でき、注意が低ランク体制で動作することによるとされている。一方、Q=K-Vは注意の方向性を破壊する。投影共有は直接的かつ定量的な推論メモリの削減効果をもたらすとされており、エッジデプロイメントの観点から価値があるとみなされている。なお、コードは公開されており、本論文はICML 2026で採択されている(PMLR vol. 306)。論文は26ページ、12図、16表で構成されている。
筆者の見立て
- 投影共有がエッジデプロイメントに特に有用である可能性を示唆している
この記事は元記事の事実のみに基づいて自動生成されました。
出典
arXiv.org「Do Transformers Need Three Projections? Systematic Study of QKV Variants」https://arxiv.org/abs/2606.04032