大規模言語モデルの「コンテキストウィンドウ」は信頼できない
広告された容量と実際の性能には大きなギャップがあり、コーディングエージェントは性能が劣化するゾーンへ容易に進入する可能性がある。研究によると、実用的なコンテキストは公称値の一部に過ぎず、人工物ベースの受け渡しが推奨される。
大規模言語モデル(LLM)のコンテキストウィンドウについて、ベンダーは200k、1M、2Mなどの大規模な値を広告しているが、実際の性能はこれらの公称値をはるかに下回るとの指摘がある。著者は、コンテキストウィンドウを「スマートゾーン」と「ダムゾーン」に分けて説明している。
パフォーマンス低下の実態
「スマートゾーンではモデルが鋭敏に動作するが、ダムゾーンでは注意散漫になり、数分前に指示されたことを忘れ始める」とされる。実用的なコンテキストの切り替わりはおおよそ100kトークン付近にあるとみられる。RULER および Chroma のコンテキスト劣化に関するレポートによると、有効なコンテキストは広告された数字の一部に過ぎず、コンテキストウィンドウが満杯になるにつれてパフォーマンスは段階的に低下する。
推奨される代替案
Claude Code はセッションが長くなると履歴をサマリーする自動コンパクト機能を備えているが、著者は人工物ベースのハンドオフを推奨している。obra/superpowers や mattpocock/skills などのプロジェクトは、小規模な名前付き人工物を中心にエージェントワークフローを構成している。
筆者の見立て
- コーディングエージェントは性能が劣化するダムゾーンへ容易に進入する可能性を示唆している
- 大規模なコンテキストウィンドウはマーケティング上の数字に過ぎないと論じている
- 自動コンパクション機能は既に性能が低下したモデルによって生成されたサマリーを実行することになると解釈している
- 自分で作成した仕様の受け渡しは自動サマリーより信号価値が高いと論じている
この記事は元記事の事実のみに基づいて自動生成されました。
出典
garrit.xyz, "Don't trust large context windows", https://garrit.xyz/posts/2026-05-06-dont-trust-large-context-windows (2026年5月6日)