
10年前のXeonでGemma 4を動作させた――CPUだけで読書速度のテキスト生成に成功
2016年製のIntel Xeon E5-2620 v4とDDR3メモリ128GBのみを使い、GPUなしでGemma 4の26Bパラメータモデルを実行し、読書速度でのテキスト生成を実現した。
2026年6月にpoint.freeで公開された記事によると、ikawrakow氏は、2016年製の単一Intel Xeon E5-2620 v4(2.10 GHz、8コア16スレッド)と128GB DDR3メモリを搭載した中古サーバーで、Gemma 4 26B-A4B(26億パラメータのMixture-of-Experts)モデルをスペキュレイティブデコーディング機能を備えて実行することに成功した。GPUがない環境での大規模言語モデル推論が可能であることを実証した。
ハードウェア構成と制約
Xeon E5-2620 v4は8個の物理コアと16個のスレッドを備え、L3キャッシュ20 MiB、L2キャッシュ合計2 MiBである。128GB DDR3メモリは現在のノートパソコン向けメモリの5~6倍遅く、CPUの処理性能も著者のノートパソコンと比べて約5倍遅い。同プロセッサーはAVX2に対応しているがAVX-512、AVX-VNNI、BF16には非対応である。LLM推論ではメモリ帯域幅がボトルネックとなり、CPU処理はこれに比べて安価な資源となっている。
Gemma 4モデルの構成と最適化
Gemma 4 26B-A4Bは128個のエキスパートを持ち、トークンごとに8個がアクティブとなる。総パラメータ数は25.2Bでありながら、アクティブなパラメータは約3.8Bに留まる。モデルの重みは25GB、262Kの完全コンテキスト時のKVキャッシュは56GBであり、合計82GBのメモリフットプリントが必要である。実行時の最適化により265個のテンソルが再パックされ、エンジンは25個の最適化フラグを含むコマンドで起動される。Flash Attentionはikawrakow氏によってik_llama.cppにCPU向けに移植されており、fused_moe=1およびfused_up_gate=1といったフュージング最適化がログで確認されている。
スペキュレイティブデコーディングの役割
スペキュレイティブデコーディングは26Bのベリファイアーと小規模なドラフターを組み合わせ、ドラフト設定の最大値は3トークンである。この手法により、メモリ限定環境でのテキスト生成が読書速度で実現されている。一方、ollama向けの過去のブログ記事によると、同ツールはこのモデルの実行に対応していないとされており、今後サポートが追加される可能性は示唆されていない。また、Gemma4向けの外部MTP(Multi-Token Prediction)グラフ分割は『graph』モードでは非対応であり、『layer』モードへのフォールバックが生じている。
この記事は元記事の事実のみに基づいて自動生成されました。
筆者の見立て
- CPU演算がベリファイアーの重みをキャッシュを通じてストリーミングするコストに比べて安価であることを示唆していると解釈している
- スペキュレイティブデコーディングをAI産業がメモリの壁を回避するために発明した最も優れたソフトウェアの回避策の一つと論じている
- スペキュレイティブデコーディングの有効性はGPUより CPU上で強いと主張している
- グラフ分割が将来的に非常に有用になると予想している
- 最先端のAIをローカルで実行するためのボトルネックはシリコンだけではなく、推論エンジンの実装方法を理解する必要があると解釈している
- オープンモデルが対応する用途に対して、リファービッシュ済みハードウェアとブラックボックスツールへの依存を避けることが必要だと論じている
- 適切なフォーク、キャリブレーション済みの量子化、及びハードウェアのメモリアーキテクチャの理解を備えれば、ユーザビリティの優位性が消滅すると示唆している
- オープンウェイトAIの最先端は有料ペイウォールやモデルプロバイダーの背後には存在しないと解釈している
出典
point.free 『A 10 year old Xeon is all you need - point.free』 https://point.free/blog/gemma-4-on-a-2016-xeon/