
Z.ai の GLM-5.2、Unsloth で量子化により消費者向けハードウェアで実行可能に
Unsloth は Z.ai の 744B パラメータモデル「GLM-5.2」をローカルで実行するためのドキュメントを公開し、1 ビットから 5 ビットの量子化により、メモリ要件を大幅に削減しながら高い精度を維持する手法を提供している。
リードパラグラフ
Z.ai の新型オープンモデル GLM-5.2 は、Unsloth の動的 GGUF 量子化技術により、一般的なハードウェアで実行可能になった。同モデルは 744B パラメータ、40B アクティブパラメータ、1M のコンテキストウィンドウを備えており、フル精度時は 1.5TB に達するが、量子化により消費者向けハードウェアでの動作が実現されている。
量子化技術と精度トレードオフ
動的 1 ビット量子化は約 76.2% のトップ 1 精度に達しながら、元のモデルサイズから 86% の削減を実現する。一方、動的 2 ビット量子化は約 82% の精度を維持しつつ 84% のサイズ削減を達成し、UD-IQ2_M 量子化では 239GB のディスク領域を使用する。また 4 ビット以上の量子化は一般的にロスレスとみられている。

ハードウェア要件と対応環境
UD-IQ2_M 2 ビット量子化は、256GB 統合メモリを備えた Mac、または 1 個の 24GB GPU と 256GB RAM での MoE オフロード構成に対応する。1 ビット量子化 (UD-IQ1_S) は 223GB の総メモリを要し、2 ビット (UD-IQ2_M) は 245GB、4 ビット (UD-Q4_K_XL) は 290~360GB、5 ビット (UD-Q5_K_XL) は 372~475GB、8 ビットは 570GB、フル精度は 810GB の総メモリが必要となる。
機能と推論オプション
Unsloth ドキュメントは「GLM-5.2 is Z.ai's new open model, delivering SOTA performance across long-horizon coding, reasoning, and agentic tasks.」と述べており、GLM-5.2 はデフォルトで思考モード (thinking mode) を使用している。同モデルは「reasoning_effort as 'high', 'max' or disabled thinking」をサポートし、デフォルト温度は 1.0、top_p は 0.95 に設定されている。最大コンテキストウィンドウは 1,048,576 トークンである。

Unsloth Studio とコンテキスト拡張
Unsloth は オープンソースの Web UI「Unsloth Studio」を提供し、自動的に RAM へのオフロードとマルチ GPU セットアップの検出に対応する。また Cloudflare トンネルによるセキュア HTTPS ローンチが実現され、KV キャッシュ量子化により q4_0 (4.5 ビット/重み) で約 3.5 倍、q4_1 (5 ビット/重み) で約 3.2 倍のコンテキスト長延長が可能とみられている。
この記事は元記事の事実のみに基づいて自動生成されました。
出典
Unsloth「GLM-5.2 - How to Run Locally | Unsloth Documentation」https://unsloth.ai/docs/models/glm-5.2 (Artificial Analysis、Z.ai、Hugging Face Hub の報道による)