
Gemma 4 QAT チェックポイント公開、モバイル向け圧縮最適化
Googleは量子化認識訓練(QAT)で最適化したGemma 4の新しいチェックポイントをリリースし、エッジデバイスとコンシューマーGPUでの効率化を実現します。モバイル特化の量子化形式により、Gemma 4 E2Bのメモリフットプリントを1GBまで削減しました。
Gemmaのリリースから2ヶ月後、GoogleはGemma 4の効率をさらに高めるため、量子化認識訓練(QAT)で最適化した新しいチェックポイントを発表しました。QATは訓練中に量子化をシミュレートすることで、モデル圧縮時の品質低下を最小化する手法です。

リリース内容
新しいQATチェックポイントはQ4_0量子化形式およびモバイル用途特化の新規量子化形式に対応しています。モバイル特化形式を用いることで、Gemma 4 E2BのメモリフットプP廉を1GBまで削減しました。また、トークン生成レイヤーに2ビット量子化をターゲットとしています。
QAT結果は標準的なPTQベースラインと比較して、全体的により高い品質を実現します。さらにGoogleは、E4BとMOEの26Bモデルの間を橋渡しするため、新たに12Bのモデルをリリースしました。同時にMulti-Token Prediction(MTP)を活用したQATチェックポイントも利用可能になっています。
デプロイメントとツール対応
QATチェックポイントはHugging Faceで提供されており、GGUF形式はllama.cppでの使用に対応しています。Compressed Tensors形式はvLLM向けに用意されています。
デプロイメント手段として、llama.cpp、Ollama、LM Studioなどのツールが利用できます。Googleの LiteRT-LMランタイムはエッジデプロイメント向けの最適化を提供し、Transformers.jsを使用することでウェブ上での実行も可能です。大規模モデルの効率的な提供にはSGLangとvLLMが活用でき、MLXはApple Silicon向けの最適化を実現します。
また、Hugging Face TransformersとUnslothを用いたファインチューニングもサポートされています。
筆者の見立て
- 日常的なエッジデバイスとコンシューマーGPU上でモデルをローカル実行できる可能性を示唆している
- メモリ要件を大幅に削減しながらGemma 4の機能と品質を保持する見解を示している
- Gemma 4がモバイル上で円滑に動作すると予想している
この記事は元記事の事実のみに基づいて自動生成されました。
出典
Google「Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency」https://blog.google/innovation-and-ai/technology/developers-tools/quantization-aware-training-gemma-4/