シャオミ、1000トークン/秒の1兆パラメータモデルを発表

Xiaomiが TileRT との協業により、MiMo-V2.5-Pro-UltraSpeed を6月8日にリリースした。1兆パラメータモデルで 1000 トークン/秒の decode 速度を実現し、MiMo-V2.5-Pro と比べて約 10 倍の生成速度を達成している。

Xiaomi MiMo チームと TileRT システムチームの協業により、MiMo-V2.5-Pro-UltraSpeed が発表された。本モデルは 1兆パラメータの規模で 1000 トークン/秒の decode 速度達成という、業界初のブレークスルーを実現している。最大リアルタイム生成速度は 1200 トークン/秒に達する。

API 提供と試用条件

MiMo-V2.5-Pro-UltraSpeed API は 2026年6月9日から6月23日 23:59（北京時間）までの期間、限定的な試用ベースでの提供となる。価格は MiMo-V2.5-Pro の 3 倍となるが、生成速度は約 10 倍である。試用期間中、承認されたユーザーには Chat アクセスが無料で提供される。一方、Token Plan はサポートされない。

各アカウントは 1 日あたり最大 10 回まで待機行列に登録でき、各セッションは 30 分の上限が設定されている。また 5 分以上のアイドル時間が生じたセッションは自動的に解放される。

FP4 量子化の性能イメージ

技術的実装

本モデルは FP4 量子化を MoE Experts に対して選別的に適用し、他のモジュールの元の精度を保持している。また DFlash 推論予測により、ブロックレベルのマスク付き並列予測を実現している。

実装レベルでは、標準的な 8 GPU ノードという商用ハードウェアのみで 1000 トークン/秒以上の出力を達成している。推論予測の受け入れ長はシナリオによって異なり、コーディング場面では平均 6.30 トークン、最大 7.14 トークン、数学・推論場面では 5.56 トークン、エージェント場面では 4.29 トークンである。推論予測ブロックサイズの上限は 8 トークンに設定されている。

推論予測デモンストレーション

オープンソース化

MiMo-V2.5-Pro チェックポイントは HuggingFace でオープンソース化されている。

筆者の見立て

スピード自体がインテリジェンスに変質し、モデルが複数の推論パスを並列で実行して自動検証と自己修正を可能にすると解釈している
1000 トークン/秒のスピードで、コード生成速度と本番環境の効率性がパラダイムレベルの加速を遂行すると予想している
1 兆パラメータモデルがミリ秒レベルの思考応答サイクルを備えたリアルタイム意思決定ループに入ることが可能になる可能性を示唆している
当該技術が医療補助と医療画像解析に応用される際、AI スピードが死との競争における重要な要素となると述べている
スピードの最終的な価値は生産性の向上ではなく、テクノロジーが人類の生活向上を支援することにあると論じている

この記事は元記事の事実のみに基づいて自動生成されました。

出典

Xiaomi MiMo『MiMo-V2.5-Pro-UltraSpeed: Pushing 1T-Parameter Model Generation Speed to 1000 TPS』 https://mimo.xiaomi.com/blog/mimo-tilert-1000tps