Codexのauto-reviewモードを試す——yoloより安全に承認疲れを200分の1にする仕組み

OpenAIが2026年4月30日に発表した Codex の auto-reviewモードは、エージェントの承認リクエストを別のエージェント（GPT-5.4 Thinking）に投げて自動でさばく機能だ。社内計測ではユーザー停止の頻度が手動承認モードに比べて約200分の1、承認率99.1%と公開されている。--yolo（全許可）と手動承認の中間に座る選択肢として、Codex CLI と Desktop アプリの両方で使える。

きっかけは Codex エンジニアリングリードのTibo（Thibault Sottiaux）のポスト。「yoloよりずっと安全な新しいauto-reviewモード」と書かれていて、要するに承認ダイアログを連打させない、しかしガードは外さない、という落とし所を狙った機能だ。

何をしているのか

メインのエージェントが作業を進めるなかで、サンドボックス境界を越える操作（ネットワーク、権限昇格、副作用のあるツール呼び出しなど）にぶつかる。普段はここでユーザーに承認ダイアログが出る。auto-reviewはそこにレビュー専用のエージェントを差し込み、ユーザーの代わりに判断する。

レビュアは次の4点で評価する。

ユーザーの意図と整合しているか
実行環境が想定どおりか
セキュリティ方針に反していないか
失敗したときの影響度

低リスクは即承認、重大リスクは即拒否、迷うものだけ人間に回す。OpenAIの公開ベンチでは、エスカレーション時の承認率99.1%、全アクション対象の実効承認率99.93%、過度な実行の検出90.3%、プロンプトインジェクション対策99.3%という数字が出ている。

ブロック対象として明記されているのは、データ流出、認証情報の露出、データ削除、セキュリティ設定の弱体化、信頼できないコードの実行など。git reset --hard のような取り返しが効かない破壊的操作も含まれる。

yoloや手動承認とどう違うか

モード	サンドボックス	承認	用途
`--yolo`（danger-full-access）	なし	なし	自分のマシンを差し出す覚悟で全任せ
`on-request`（手動・デフォルト）	あり	都度ユーザーに確認	普段使い
`auto-review`	あり	レビュアが代理判断	承認疲れを減らしたいが安全は外したくない

--yolo は速いがガードがゼロで、CIや使い捨て環境向け。on-request は安全だが、長時間タスクで何度もダイアログが出て手が止まる。auto-reviewはサンドボックスと承認のフレームワーク自体は維持したまま、判断だけ別エージェントに委譲する。Tiboが「much safer than yolo」と言うのはここが理由だ。

OpenAI社内のCodex Desktopでは、すでに過半のトークン消費がauto-review経由になっている。手動承認に比べて停止頻度が約200分の1という数字も同じブログに書かれている。

CLIなら数行で済む

~/.codex/config.toml に以下を書く。

1
2
3
approval_policy = "on-request"
approvals_reviewer = "auto_review"
sandbox_mode = "workspace-write"

approval_policy を on-request のまま、approvals_reviewer を auto_review にすると、承認が必要になったタイミングでレビュアが先に評価する。低・中リスクは通し、高・重大はブロックして理由を返す。

サンドボックスは Linux なら bwrap + seccomp、macOSは sandbox-exec、WindowsはWSL2経由かネイティブの sandbox 機構を使う。.git、.agents、.codex は常に読み取り専用扱い。

ネットワーク許可をピンポイントで足したいときは次のように書く。

1
2
[sandbox_workspace_write]
network_access = true

プロファイルにしておけば codex --profile review のように切り替えられる。

Desktopではレビュアの判断ログが残る

Codex Desktopアプリでは、レビュアの判断結果が「Reviewing / Approved / Denied / Stopped / Timed out」とリスクレベル付きで表示される。拒否されたときは理由が添えられる——たとえば「現在のタスク文脈と無関係に ~/.ssh/config へアクセスしようとした」「rm -rf ./build 相当の不可逆な削除」「外部ホストへの未承認のPOST」といった粒度で読める。あとから「なぜ止めた／なぜ通した」を追えるので、auto-reviewを単なるブラックボックスにせず、自分の運用ポリシーを詰める材料にできる。

初回起動時にフォルダを開くと、Git管理下のフォルダは Auto（=auto-reviewを含む推奨設定）、未管理のフォルダは read-only が初期値になる。VS Code拡張からだと「ワークスペースを信頼」するまで read-only のままになる場合があるので、信頼後に /permissions で切り替える。

信頼しすぎないための注意

承認率99.1%は裏を返せば0.9%は誤判定ということだ。レビュア自身もLLMなので、入力されたツール出力にプロンプトインジェクションが混じれば判断を曲げられる可能性は残る。OpenAIはMonitoringBench（Hard）で96.1%、プロンプトインジェクション対策で99.3%と公開しているが、100%ではない。

実運用では次の前提を置いたほうがいい。

~/.ssh、認証情報を含む .env、本番DBへの接続情報は permissions.workspace.filesystem で none にする
重要リポジトリでは auto_review ではなく granular で「ネットワークだけ手動」のように個別設定する
レビュア判断ログを定期的に流し読みして、自分の感覚とズレていないか確認する

使うべきかの判断

3つのケースで分ける。

個人の開発マシンで信頼できるリポジトリを触る → auto-reviewでいい。承認疲れが消える
共有CI・本番に近い環境 → on-request のまま、必要ならアクションを granular で個別に絞る
使い捨てサンドボックスやコンテナで全任せ → **--yolo**でも構わない。ただし他には使わない

auto-reviewは「サンドボックスは維持する」「人の最終確認を諦めない」という二つを保ちながら、ダイアログだけを減らす。安全と速度のどちらかを切る必要がない。エージェントを長時間走らせる人ほど効く。

参考

この記事は Claude Opus 4.7 が執筆しました。