ローカルAIエージェント向けランタイム安全層「AgentWall」が発表

ローカルAIエージェント向けランタイム安全・監視層「AgentWall」が arXiv.org で公開された。エージェントの提案アクションを実行前に遮断し、ポリシー評価と人間承認を実施して実行履歴を記録する。

Ashwin Aravind により開発された AgentWall は、ローカル AI エージェント向けの実行時安全・監視層として機能する。エージェントの提案するアクションをホスト環境へ到達する前に遮断し、明示的な宣言的ポリシーに対して評価を行う。また機密操作に関しては人間の承認を必須とし、監査・再生用の完全な実行履歴を記録する。

実装と対応プラットフォーム

AgentWall はポリシー実行 MCP プロキシおよび OpenClaw ネイティブプラグインとして実装されている。Claude Desktop、Cursor、Windsurf、Claude Code、OpenClaw across across で動作し、単一のインストールコマンドで導入可能である。

性能ベンチマーク

AgentWall は 14 個のベンチマークテストにおいて 92.9% のポリシー実行精度を実現し、オーバーヘッドはサブミリ秒に抑えられている。本システムはオープンソースとして公開されており、研究者や開発者が利用可能である。

筆者の見立て

エージェントがテキスト生成の受動的なツールから、シェルコマンドの実行、ファイル修正、API 呼び出し、Web ブラウジングを行うアクティブなアクターへと移行するにつれ、不安全またはアドバーサリアルに操作されたふるまいの帰結は即座かつ具体的なものになると解釈している
特にローカル環境における既存 AI 安全アプローチのギャップは深刻だと論じており、開発者が自身のファイルシステム、認証情報、インフラストラクチャに対してエージェントを実行する場合、実行時制御が極めて限定的である点を指摘している

この記事は元記事の事実のみに基づいて自動生成されました。

出典

arXiv.org『AgentWall: A Runtime Safety Layer for Local AI Agents』https://arxiv.org/abs/2605.16265