
Mistral AI、形式検証向けの新モデル「Leanstral 1.5」を公開
TL;DR: Mistral AIが形式検証と証明工学向けのオープンソースモデル「Leanstral 1.5」をApache-2.0ライセンスで公開した。6B個のアクティブパラメータを持つこのモデルは、複数のベンチマークで最先端の成果を達成し、未発見のバグ5件を発見した。
Mistral AIは、形式検証と証明工学を実現するための無料モデル「Leanstral 1.5」を発表した。6B個のアクティブパラメータと119B個の総パラメータを備えるこのモデルは、Apache-2.0ライセンスで公開されており、Hugging Faceおよび無料APIエンドポイント経由で利用可能である。
ベンチマーク成果
Leanstral 1.5は複数のベンチマークで最先端の結果を達成した。miniF2Fではバリデーションとテストセットの両方で100%に達し、PutnamBenchでは672問中587問を解決した。FATE-Hで87%、FATE-Xで34%のスコアを記録している。

訓練手法と機能
このモデルは中盤訓練、教師あり微調整、およびCISPOを用いた強化学習を通じて訓練された。マルチターン環境とコードエージェント環境の2つの強化学習環境で訓練されており、エージェント型証明工学とコード検証の能力を備えている。

実世界での応用
Leanstral 1.5は57のリポジトリをテストした結果、以前は発見されていなかったバグ5件を発見した。このプロセスでは、57リポジトリ全体で47個の違反プロパティが検出され、そのうち11個が実際のバグであることが特定された。例として、datrs/varintegerライブラリのzigzag復号の符号関数で、入力がStd.U64.MAXの場合に(value + 1)がオーバーフローするバグが見つかった。
計算効率性
Leanstral 1.5はPutnamBenchの問題当たり$4というコストで動作し、Seed-Prover 1.5の高設定($300、10 H20-day)やAleph Prover($54–68)と比べて著しく効率的である。テスト時スケーリング評価では、50kトークンで44問、200kトークンで244問、1Mトークンで493問を解決するなど、トークン予算の増加に応じた性能向上を示した。


また、複雑なコード性質の検証にも対応し、AVL木の時間計算量保証の証明では270万トークンと22回の圧縮にわたり、高さの単位ごとに48ステップの複雑性を処理した。FLTEvalではpass@1が21.9%から28.9%に、pass@8が31.9%から43.2%に向上した。

筆者の見立て
- Leanstral 1.5は形式検証をより強力かつアクセス可能にするパフォーマンスアップグレードを提供していると論じている
- 厳密な形式手法は実世界での使用において効果的かつ実用的であることが可能であると論じている
- 形式検証は既に実世界のコードベースに適用でき、従来手法では見落とされるバグを発見できることを示唆している
この記事は元記事の事実のみに基づいて自動生成されました。
出典
Mistral AI「Leanstral 1.5: Proof Abundance for All」https://mistral.ai/news/leanstral-1-5/