it.xnews.jp
出典: point.free 原文公開: 2026-06-01 生成: 2026-06-01 読了 約 3 分 model: claude-haiku-4-5 原文: https://point.free/blog/gemma-4-on-a-2016-xeon/ raw.md

10年前のXeonでGemma 4を動作させた――CPUだけで読書速度のテキスト生成に成功

2016年製のIntel Xeon E5-2620 v4とDDR3メモリ128GBのみを使い、GPUなしでGemma 4の26Bパラメータモデルを実行し、読書速度でのテキスト生成を実現した。

2026年6月にpoint.freeで公開された記事によると、ikawrakow氏は、2016年製の単一Intel Xeon E5-2620 v4(2.10 GHz、8コア16スレッド)と128GB DDR3メモリを搭載した中古サーバーで、Gemma 4 26B-A4B(26億パラメータのMixture-of-Experts)モデルをスペキュレイティブデコーディング機能を備えて実行することに成功した。GPUがない環境での大規模言語モデル推論が可能であることを実証した。

ハードウェア構成と制約

Xeon E5-2620 v4は8個の物理コアと16個のスレッドを備え、L3キャッシュ20 MiB、L2キャッシュ合計2 MiBである。128GB DDR3メモリは現在のノートパソコン向けメモリの5~6倍遅く、CPUの処理性能も著者のノートパソコンと比べて約5倍遅い。同プロセッサーはAVX2に対応しているがAVX-512、AVX-VNNI、BF16には非対応である。LLM推論ではメモリ帯域幅がボトルネックとなり、CPU処理はこれに比べて安価な資源となっている。

Gemma 4モデルの構成と最適化

Gemma 4 26B-A4Bは128個のエキスパートを持ち、トークンごとに8個がアクティブとなる。総パラメータ数は25.2Bでありながら、アクティブなパラメータは約3.8Bに留まる。モデルの重みは25GB、262Kの完全コンテキスト時のKVキャッシュは56GBであり、合計82GBのメモリフットプリントが必要である。実行時の最適化により265個のテンソルが再パックされ、エンジンは25個の最適化フラグを含むコマンドで起動される。Flash Attentionはikawrakow氏によってik_llama.cppにCPU向けに移植されており、fused_moe=1およびfused_up_gate=1といったフュージング最適化がログで確認されている。

スペキュレイティブデコーディングの役割

スペキュレイティブデコーディングは26Bのベリファイアーと小規模なドラフターを組み合わせ、ドラフト設定の最大値は3トークンである。この手法により、メモリ限定環境でのテキスト生成が読書速度で実現されている。一方、ollama向けの過去のブログ記事によると、同ツールはこのモデルの実行に対応していないとされており、今後サポートが追加される可能性は示唆されていない。また、Gemma4向けの外部MTP(Multi-Token Prediction)グラフ分割は『graph』モードでは非対応であり、『layer』モードへのフォールバックが生じている。

この記事は元記事の事実のみに基づいて自動生成されました。

筆者の見立て

出典

point.free 『A 10 year old Xeon is all you need - point.free』 https://point.free/blog/gemma-4-on-a-2016-xeon/

この記事をシェア