it.xnews.jp
出典: Quesma Inc. 原文公開: 2026-06-29 生成: 2026-06-29 読了 約 3 分 model: claude-haiku-4-5 原文: https://quesma.com/blog/qwen-36-is-awesome/ raw.md

ローカル開発に最適なQwen 3.6 27Bの性能を検証

TL;DR: Qwen 3.6 27B(27億パラメータ)モデルが、Macbook Max M5などのローカル環境で実用的な処理速度を達成することが確認された。同じシリーズの35B A3B(混合エキスパート型)と比べ処理速度は劣るが、出力品質と汎用性のバランスに優れていると評価されている。

Quesma Inc.は、Qwen 3.6モデルの性能評価結果をブログで公開した。同社は27Bおよび35B A3B(混合エキスパート型)の2つの変種を比較し、ローカル開発環境での実用性を検証した。

モデル性能の比較測定

テストはMacbook Max M5(RAM 128GB)で実施され、llama.cpp(オープンソースモデル実行ツール)および multi-token prediction(MTP)を用いて計測された。Qwen 3.6 27Bはllama.cpp + MTPで32 tok/sを達成し、42GB RAMを消費した。同じ条件でQwen 3.6 35B A3Bは105 tok/sと約3倍高速だったが、45GB RAMを要する。

thermal_master_p3_macbook

一方、MLXフレームワークを用いた場合、Qwen 3.6 27Bは17 tok/s(RAM 28GB)、Qwen 3.6 35B A3Bは85 tok/s(RAM 37GB)となった。DeepSeek-V4-Flashはllama.cppで33 tok/sを記録し、103GB RAMが必要であったほか、より長いコンテキスト処理が必要なプロジェクトではこのモデルが優位である可能性があると指摘されている。

ベンチマークスコアと利用報告

Artificial AnalysisのベンチマークではQwen 3.6 27Bが37点、Qwen 3.6 35B A3Bが32点、DeepSeek-V4-Flashが40点、Gemma 4 31Bが29点を記録した。Qwen 3.6 27BはRTX 5090上での実装例も報告されており、ユーザーのgfoscoは「Q6_K量子化とQ4_0 KVを設定し、LM Studioで123kトークンのコンテキストにおいて一貫して50 tokens/sを達成した。使用VRAM は32GBのうち約28GB」と述べた。

chat_quantum

Qwen 3.6 27Bのネイティブコンテキストサイズは256k トークンであり、テストでは65536トークンのコンテキストサイズパラメータが使用された。Macbook Max M5上でのGPU使用率は95パーセントに達した。

筆者の見立て

この記事は元記事の事実のみに基づいて自動生成されました。

出典

Quesma Inc.「Qwen 3.6 27B is the sweet spot for local development」https://quesma.com/blog/qwen-36-is-awesome/ (Hacker News、Artificial Analysis、Hugging Face、llama.cpp、OpenCode の報道による)

この記事をシェア