it.xnews.jp
生成: 2026-06-08 読了 約 3 分 model: claude-haiku-4-5 原文: https://mimo.xiaomi.com/blog/mimo-tilert-1000tps raw.md

シャオミ、1000トークン/秒の1兆パラメータモデルを発表

Xiaomiが TileRT との協業により、MiMo-V2.5-Pro-UltraSpeed を6月8日にリリースした。1兆パラメータモデルで 1000 トークン/秒の decode 速度を実現し、MiMo-V2.5-Pro と比べて約 10 倍の生成速度を達成している。

Xiaomi MiMo ロゴ

Xiaomi MiMo チームと TileRT システムチームの協業により、MiMo-V2.5-Pro-UltraSpeed が発表された。本モデルは 1兆パラメータの規模で 1000 トークン/秒の decode 速度達成という、業界初のブレークスルーを実現している。最大リアルタイム生成速度は 1200 トークン/秒に達する。

API 提供と試用条件

MiMo-V2.5-Pro-UltraSpeed API は 2026年6月9日から6月23日 23:59(北京時間)までの期間、限定的な試用ベースでの提供となる。価格は MiMo-V2.5-Pro の 3 倍となるが、生成速度は約 10 倍である。試用期間中、承認されたユーザーには Chat アクセスが無料で提供される。一方、Token Plan はサポートされない。

各アカウントは 1 日あたり最大 10 回まで待機行列に登録でき、各セッションは 30 分の上限が設定されている。また 5 分以上のアイドル時間が生じたセッションは自動的に解放される。

FP4 量子化の性能イメージ

技術的実装

本モデルは FP4 量子化を MoE Experts に対して選別的に適用し、他のモジュールの元の精度を保持している。また DFlash 推論予測により、ブロックレベルのマスク付き並列予測を実現している。

実装レベルでは、標準的な 8 GPU ノードという商用ハードウェアのみで 1000 トークン/秒以上の出力を達成している。推論予測の受け入れ長はシナリオによって異なり、コーディング場面では平均 6.30 トークン、最大 7.14 トークン、数学・推論場面では 5.56 トークン、エージェント場面では 4.29 トークンである。推論予測ブロックサイズの上限は 8 トークンに設定されている。

推論予測デモンストレーション

オープンソース化

MiMo-V2.5-Pro チェックポイントは HuggingFace でオープンソース化されている。

筆者の見立て

この記事は元記事の事実のみに基づいて自動生成されました。

出典

Xiaomi MiMo『MiMo-V2.5-Pro-UltraSpeed: Pushing 1T-Parameter Model Generation Speed to 1000 TPS』 https://mimo.xiaomi.com/blog/mimo-tilert-1000tps

この記事をシェア