
OpenAI、GPT-5.6シリーズの限定プレビューを発表
OpenAIは、新フラッグシップモデル「Sol」を含むGPT-5.6シリーズ3モデルの限定プレビューを開始した。Solは改善されたエージェント機能と強化されたセーフティ対策を備えている。
GPT-5.6シリーズの構成
OpenAIはGPT-5.6シリーズの3つのモデルの限定プレビューを開始した。フラッグシップのSolに加え、日常的な業務向けのバランス型モデルTerra、および高速で低価格なLunaで構成される。TerraはGPT-5.5と同等の性能を持ちながら2倍安く、LunaはOpenAIの最低価格でも強力な機能を提供する。
性能と機能強化
GPT-5.6 Solはコーディング、生物学、サイバーセキュリティにおけるエージェント機能が向上した。コーディングワークフローにおいてTerminal-Bench 2.1で最新の水準を設定し、GeneBench v1ではGPT-5.5より少ないトークンで強い結果を達成している。ExploitBenchではMythos Previewと同等の性能を約3分の1のアウトプットトークンで実現している。
さらにGPT-5.6 Solは脆弱性の発見と修正において、エンドツーエンド攻撃の実行より優れた能力を示す。Chromiumとfirefoxの評価ではバグと悪用の手段を特定したが、テスト条件下では自律的に機能するフルチェーン悪用を生成しなかった。OpenAIの準備状況フレームワークではSolはサイバー重大閾値を超えていない。
セーフティとレッドチーミング
GPT-5.6 Solは現在までで最も堅牢なセーフティスタックで起動する。OpenAIは高リスク活動、センシティブなサイバー要求、継続的な悪用に対する保護を強化した。70万を超えるA100相当GPU時間が自動化されたレッドチーミングに充てられた。
セーフティ対策は、デュアルユース領域において時折正当な業務に介入する可能性がある。UC Berkeleyの研究者とOpenAIおよび他のフロンティア研究所との共同作成によるExploitGymベンチマークでGPT-5.6モデルは大幅な改善を示している。
料金とリリース予定
GPT-5.6は1M トークンあたりの料金で提供される。Solは$5入力/$30出力、Terraは$2.50/$15、Lunaは$1/$6である。キャッシュ書き込みはモデルのキャッシュなし入力レートの1.25倍で課金され、キャッシュ読み込みは90%の割引を受ける。プロンプトキャッシュの最小キャッシュ寿命は30分である。
GPT-5.6 Solは7月にCerebasで最大750トークン/秒で起動する。モデルは初期段階では選定された信頼できるパートナーを通じてAPIおよびCodexで利用可能となる。OpenAIは発表前にU.S.政府にモデルの計画と機能をプレビューし、限定プレビューには政府と共有された小規模な信頼できるパートナーグループが参加している。一般提供は今後数週間で実施される予定である。
筆者の見立て
- OpenAIは、ツールをユーザー、開発者、企業、サイバー防御者、グローバルパートナーから遠ざけるべきではないと考えているという立場を示唆している。
- 限定的なプレビューと政府との協調が、今後数週間での広範な利用可能化への最も強固な道筋と解釈している。
- 政府アクセスプロセスは長期的なデフォルトとなるべきではないと主張している。
- サイバーセキュリティ機能が防御者に到達し、利益をもたらすことが優先事項と位置付けている。
- ベンチマーク閾値がモデルの使用方法や他のツールとの組み合わせのあらゆる方法を捕捉できないと解釈している。
- 機能向上とセーフティ強化および段階的リリースが不確実性に対処していると解釈している。
この記事は元記事の事実のみに基づいて自動生成されました。
出典
OpenAI「Previewing GPT-5.6 Sol: a next-generation model」https://openai.com/index/previewing-gpt-5-6-sol/