出典: Quesma Inc. 原文公開: 2026-06-29 生成: 2026-06-29 読了約 3 分 model: claude-haiku-4-5 原文: https://quesma.com/blog/qwen-36-is-awesome/ raw.md

ローカル開発に最適なQwen 3.6 27Bの性能を検証

TL;DR: Qwen 3.6 27B（27億パラメータ）モデルが、Macbook Max M5などのローカル環境で実用的な処理速度を達成することが確認された。同じシリーズの35B A3B（混合エキスパート型）と比べ処理速度は劣るが、出力品質と汎用性のバランスに優れていると評価されている。

Quesma Inc.は、Qwen 3.6モデルの性能評価結果をブログで公開した。同社は27Bおよび35B A3B（混合エキスパート型）の2つの変種を比較し、ローカル開発環境での実用性を検証した。

モデル性能の比較測定

テストはMacbook Max M5（RAM 128GB）で実施され、llama.cpp（オープンソースモデル実行ツール）および multi-token prediction（MTP）を用いて計測された。Qwen 3.6 27Bはllama.cpp + MTPで32 tok/sを達成し、42GB RAMを消費した。同じ条件でQwen 3.6 35B A3Bは105 tok/sと約3倍高速だったが、45GB RAMを要する。

thermal_master_p3_macbook

一方、MLXフレームワークを用いた場合、Qwen 3.6 27Bは17 tok/s（RAM 28GB）、Qwen 3.6 35B A3Bは85 tok/s（RAM 37GB）となった。DeepSeek-V4-Flashはllama.cppで33 tok/sを記録し、103GB RAMが必要であったほか、より長いコンテキスト処理が必要なプロジェクトではこのモデルが優位である可能性があると指摘されている。

ベンチマークスコアと利用報告

Artificial AnalysisのベンチマークではQwen 3.6 27Bが37点、Qwen 3.6 35B A3Bが32点、DeepSeek-V4-Flashが40点、Gemma 4 31Bが29点を記録した。Qwen 3.6 27BはRTX 5090上での実装例も報告されており、ユーザーのgfoscoは「Q6_K量子化とQ4_0 KVを設定し、LM Studioで123kトークンのコンテキストにおいて一貫して50 tokens/sを達成した。使用VRAM は32GBのうち約28GB」と述べた。

chat_quantum

Qwen 3.6 27Bのネイティブコンテキストサイズは256k トークンであり、テストでは65536トークンのコンテキストサイズパラメータが使用された。Macbook Max M5上でのGPU使用率は95パーセントに達した。

筆者の見立て

著者は「Qwen 3.6 27Bが初の実用的な汎用インテリジェンスとしてのローカルモデル」と論じている。
著者は「処理速度では27Bよりも品質の高いコード生成を選好する」と解釈している。
著者は「私たちは自身のモデルを実行可能な時代に突入しており、この転換は現在の proprietary frontier models の状況によってさらに加速するとみられている」と予想している。
著者は「将来のモデルは生の知能と事実知識を分離し、知識をツール呼び出しにオフロードする可能性を示唆している」と予想している。
著者は「将来のモデルは現在の最先端より高性能でありながらローカルデバイス、さらにはスマートフォンでも実行可能になることを強く信じている」と予想している。

この記事は元記事の事実のみに基づいて自動生成されました。

出典

Quesma Inc.「Qwen 3.6 27B is the sweet spot for local development」https://quesma.com/blog/qwen-36-is-awesome/ (Hacker News、Artificial Analysis、Hugging Face、llama.cpp、OpenCode の報道による)

ローカル開発に最適なQwen 3.6 27Bの性能を検証

モデル性能の比較測定

ベンチマークスコアと利用報告

筆者の見立て

出典

この記事をシェア