it.xnews.jp
生成: 2026-05-28 読了 約 3 分 model: claude-haiku-4-5 原文: https://www.anthropic.com/news/claude-opus-4-8 raw.md

Claude Opus 4.8 がリリース、ベンチマークで性能向上

Anthropic は Claude Opus を新バージョン Claude Opus 4.8 にアップグレードした。コーディング、エージェント機能、推論、実務的な知識作業など複数のベンチマークで改善を実現し、Opus 4.7 と同一価格で提供する。

本日 Claude Opus 4.8 がリリースされた。Anthropic は Claude Opus をアップグレードして Claude Opus 4.8 とし、複数のベンチマークで性能を向上させた。新版は Opus 4.7 と同じ価格で利用でき、複数の新機能が搭載される。

新機能と価格設定

claude.ai のユーザーは、Claude が各タスクに充てる計算努力量を制御できるようになった。デフォルトは高努力モードである。Claude Code には「dynamic workflows」機能が追加され、Enterprise、Team、Max プランで利用可能となっており、並列サブエージェントで大規模な問題に対応できる。

Messages API は messages 配列内にシステムエントリを受け入れるようになった。また高速モードは Opus 4.8 で 2.5× の速度で動作し、前モデル比で 3 倍廉価になった。定期利用の価格は入力トークンあたり $5、出力トークンあたり $25。高速モード価格は入力トークンあたり $10、出力トークンあたり $50 である。開発者は Claude API を通じて claude-opus-4-8 を利用できる。

ベンチマーク成績

Opus 4.8 は Online-Mind2Web で 84% のスコアを達成し、業務の最強のコンピュータ利用・ブラウザエージェント性能とされている。法律関連業務のベンチマークでは、Legal Agent Benchmark の全合格基準で初めて 10% を超えた。Databricks Genie では、Opus 4.7 比で 61% 廉価なトークンコストで動作する。

Opus 4.8 はコード内の欠陥を見過ごす可能性が先行モデルの約 4 分の 1 に低下した。アライメント評価によると、Opus 4.8 は向社会的特性の新たな高みに達し、Opus 4.7 より大幅に低い不適切行動率を示しているとされる。

早期テスターからの評価

早期テスターは、「Claude Opus 4.8 はより効果的な協力者であり、Claude Code で適切な質問を投げかけ、自身の間違いを発見し、計画に問題があればフィードバックを与え、複雑なマルチサービス検証に自信を持って取り組む」と述べた。別の早期テスターは、「Super-Agent ベンチマークで、Opus 4.8 が唯一のモデルとしてすべてのケースをエンドツーエンドで完了し、Opus 先行モデルと GPT-5.5 をコスト同等条件で上回った」とコメントしている。

筆者の見立て

この記事は元記事の事実のみに基づいて自動生成されました。

出典

Anthropic『Introducing Claude Opus 4.8』https://www.anthropic.com/news/claude-opus-4-8

(Claude Opus 4.8 System Card、Project Glasswing の報道による)

この記事をシェア