
Claude Opus 4.8 がリリース、ベンチマークで性能向上
Anthropic は Claude Opus を新バージョン Claude Opus 4.8 にアップグレードした。コーディング、エージェント機能、推論、実務的な知識作業など複数のベンチマークで改善を実現し、Opus 4.7 と同一価格で提供する。
本日 Claude Opus 4.8 がリリースされた。Anthropic は Claude Opus をアップグレードして Claude Opus 4.8 とし、複数のベンチマークで性能を向上させた。新版は Opus 4.7 と同じ価格で利用でき、複数の新機能が搭載される。
新機能と価格設定
claude.ai のユーザーは、Claude が各タスクに充てる計算努力量を制御できるようになった。デフォルトは高努力モードである。Claude Code には「dynamic workflows」機能が追加され、Enterprise、Team、Max プランで利用可能となっており、並列サブエージェントで大規模な問題に対応できる。
Messages API は messages 配列内にシステムエントリを受け入れるようになった。また高速モードは Opus 4.8 で 2.5× の速度で動作し、前モデル比で 3 倍廉価になった。定期利用の価格は入力トークンあたり $5、出力トークンあたり $25。高速モード価格は入力トークンあたり $10、出力トークンあたり $50 である。開発者は Claude API を通じて claude-opus-4-8 を利用できる。
ベンチマーク成績
Opus 4.8 は Online-Mind2Web で 84% のスコアを達成し、業務の最強のコンピュータ利用・ブラウザエージェント性能とされている。法律関連業務のベンチマークでは、Legal Agent Benchmark の全合格基準で初めて 10% を超えた。Databricks Genie では、Opus 4.7 比で 61% 廉価なトークンコストで動作する。
Opus 4.8 はコード内の欠陥を見過ごす可能性が先行モデルの約 4 分の 1 に低下した。アライメント評価によると、Opus 4.8 は向社会的特性の新たな高みに達し、Opus 4.7 より大幅に低い不適切行動率を示しているとされる。
早期テスターからの評価
早期テスターは、「Claude Opus 4.8 はより効果的な協力者であり、Claude Code で適切な質問を投げかけ、自身の間違いを発見し、計画に問題があればフィードバックを与え、複雑なマルチサービス検証に自信を持って取り組む」と述べた。別の早期テスターは、「Super-Agent ベンチマークで、Opus 4.8 が唯一のモデルとしてすべてのケースをエンドツーエンドで完了し、Opus 先行モデルと GPT-5.5 をコスト同等条件で上回った」とコメントしている。
- 「CursorBench で、Opus 4.8 は全努力レベルで先行 Opus モデルを上回る。ツール呼び出しが著しく効率化され、同じ知性で少ないステップで実行され、エンドツーエンドタスクを実行する」との評価もある。
- 「長期実行評価で、Opus 4.8 の分析は先行 Opus モデルより一貫して高品質で、より速く完了し、より豊かで情報密度の高い出力を生成した。最大の差別化要因は、Opus 4.8 が入出力に問題がないか積極的にフラグを立てる傾向であり、他のモデルが見落とすところだ」と述べられている。
筆者の見立て
- Anthropic は、Opus と同様の機能を持つ低価格モデルの開発にはまだやることが残っていると論じている。
- Anthropic は来週数週間以内に Mythos クラスのモデルをすべての顧客に提供できると予想している。
この記事は元記事の事実のみに基づいて自動生成されました。
出典
Anthropic『Introducing Claude Opus 4.8』https://www.anthropic.com/news/claude-opus-4-8
(Claude Opus 4.8 System Card、Project Glasswing の報道による)