it.xnews.jp
出典: Mistral AI 生成: 2026-07-04 読了 約 3 分 model: claude-haiku-4-5 原文: https://mistral.ai/news/leanstral-1-5/ raw.md

Mistral AI、形式検証向けの新モデル「Leanstral 1.5」を公開

TL;DR: Mistral AIが形式検証と証明工学向けのオープンソースモデル「Leanstral 1.5」をApache-2.0ライセンスで公開した。6B個のアクティブパラメータを持つこのモデルは、複数のベンチマークで最先端の成果を達成し、未発見のバグ5件を発見した。

Mistral AIは、形式検証と証明工学を実現するための無料モデル「Leanstral 1.5」を発表した。6B個のアクティブパラメータと119B個の総パラメータを備えるこのモデルは、Apache-2.0ライセンスで公開されており、Hugging Faceおよび無料APIエンドポイント経由で利用可能である。

ベンチマーク成果

Leanstral 1.5は複数のベンチマークで最先端の結果を達成した。miniF2Fではバリデーションとテストセットの両方で100%に達し、PutnamBenchでは672問中587問を解決した。FATE-Hで87%、FATE-Xで34%のスコアを記録している。

Leanstral-charts

訓練手法と機能

このモデルは中盤訓練、教師あり微調整、およびCISPOを用いた強化学習を通じて訓練された。マルチターン環境とコードエージェント環境の2つの強化学習環境で訓練されており、エージェント型証明工学とコード検証の能力を備えている。

Multiturn Lean verifier flow

実世界での応用

Leanstral 1.5は57のリポジトリをテストした結果、以前は発見されていなかったバグ5件を発見した。このプロセスでは、57リポジトリ全体で47個の違反プロパティが検出され、そのうち11個が実際のバグであることが特定された。例として、datrs/varintegerライブラリのzigzag復号の符号関数で、入力がStd.U64.MAXの場合に(value + 1)がオーバーフローするバグが見つかった。

計算効率性

Leanstral 1.5はPutnamBenchの問題当たり$4というコストで動作し、Seed-Prover 1.5の高設定($300、10 H20-day)やAleph Prover($54–68)と比べて著しく効率的である。テスト時スケーリング評価では、50kトークンで44問、200kトークンで244問、1Mトークンで493問を解決するなど、トークン予算の増加に応じた性能向上を示した。

Agentic Prover Figure Recreation

PutnamBench test time scaling

また、複雑なコード性質の検証にも対応し、AVL木の時間計算量保証の証明では270万トークンと22回の圧縮にわたり、高さの単位ごとに48ステップの複雑性を処理した。FLTEvalではpass@1が21.9%から28.9%に、pass@8が31.9%から43.2%に向上した。

chart-2

筆者の見立て

この記事は元記事の事実のみに基づいて自動生成されました。

出典

Mistral AI「Leanstral 1.5: Proof Abundance for All」https://mistral.ai/news/leanstral-1-5/

この記事をシェア