
Microsoftが開発コード用AI「MAI-Code-1-Flash」を発表
本番環境向けに最適化された新型コーディングモデルが、複数のベンチマークでClaude Haikuを上回る性能を達成した。
Microsoftは本番開発ワークフロー向けに最適化されたコーディングモデル「MAI-Code-1-Flash」を発表した。同モデルはGitHub Copilotの実運用ハーネスを用いて直接訓練され、適応的なソリューション長制御を備えており、タスクの複雑度に応じて応答の深さを調整する。
訓練と評価
MAI-Code-1-Flashは、リポジトリ質問応答、リファクタリング、実際のGitHub Copilot利用から得たテレメトリーに基づくタスクを含む、複数のチェックポイント評価を通じて訓練された。同モデルはClaude Haiku 4.5に対して、SWE-Bench Verified、SWE-Bench Pro、SWE-Bench Multilingual、Terminal Bench 2の4つのコーディングベンチマークすべてで評価された。
ベンチマーク結果
MAI-Code-1-FlashはClaude Haiku 4.5を全4つのコア評価で上回り、SWE-Bench Proでは16ポイントのリード(51.2% vs. 35.2%)を達成した。さらに難度の高い問題をSWE-Bench Verifiedで最大60%少ないトークンで解決し、精度と効率のバランスを実現した。
筆者の見立て
- オフライン改善が実世界の開発品質向上に貢献する可能性を示唆している
- 開発者がより早い段階で有用な出力を得られるようになると予想している
- より高い精度とより大きな効率性がもはやトレードオフではなくなったと論じている
この記事は元記事の事実のみに基づいて自動生成されました。
出典
Microsoft AI「Introducing MAI-Code-1-Flash」https://microsoft.ai/news/introducingmai-code-1-flash/