GPT-5.4 登場 ─ 推論もコーディングもPC操作も1つのモデルで

OpenAIが3月5日、最新フロンティアモデル「GPT-5.4」をリリースした。ChatGPT、API、Codexで順次ロールアウトが始まっている。推論、コーディング、エージェント機能を1つのモデルに統合した、GPT-5シリーズの集大成的なアップデートだ。

3つのバリエーション

GPT-5.4は3つのバリエーションで提供される。

GPT-5.4：標準モデル。ChatGPTとAPIで利用可能
GPT-5.4 Thinking：推論特化。じっくり考えるタスク（戦略メモ、デューデリジェンス、多段階リサーチ）向け。Plus/Team/Pro向けで、3ヶ月後にGPT-5.2 Thinkingを置き換える
GPT-5.4 Pro：最高性能。複雑なタスクに最大の精度を求めるPro/Enterprise向け

GPT-5.3-Codexのコーディング能力も統合されており、推論モデルとコーディングモデルがついに一本化された。

GPT-5.4の目玉は、汎用モデルとして初めてネイティブな「コンピュータ使用」機能を搭載したこと。スクリーンショットを見ながらマウスやキーボードを操作し、Playwrightなどのライブラリを使ってソフトウェアを直接操作できる。

デスクトップタスクのベンチマーク「OSWorld」で75%を記録し、人間のエキスパートを初めて上回った。「コードを書いて」ではなく「このアプリを操作して」が成り立つ時代が来つつある。

APIレベルでは最大100万トークンのコンテキストウィンドウをサポート。コードベース全体、長大な契約書、数四半期分の財務データを丸ごと1リクエストに入れられる。ただし272,000トークンを超えると入力単価が2倍になるので、何でもかんでも放り込めばいいというわけではない。

GPT-5.4の主要なベンチマーク結果はこんな感じ：

とはいえ、すべてのベンチマークで首位というわけではない。SWE-Bench Verified（コーディング）ではClaude Opus 4.6が80.8%でリード、GPQA Diamond（推論）ではGemini 3.1 Proが94.3%で上回っている。得意分野がモデルごとに分かれてきた感じだ。

モデル	入力（100万トークン）	出力（100万トークン）
gpt-5.4	$2.50	$15
gpt-5.4-pro	$30	$180

標準版の価格はかなり手頃。Pro版は桁が違うが、精度が求められるエンタープライズ用途向けの位置づけだ。

APIには「Tool Search」という新機能も追加されていて、必要なツール定義だけを動的に取得することでトークン消費を47%削減できるという。ツールを大量に登録するエージェント開発者には嬉しい改善。

GPT-5シリーズは5.2で推論、5.3でコーディングと個別に進化してきたが、5.4でそれらが1つのモデルに統合された。「どのモデルを使えばいいのか」という悩みが減るのは純粋にありがたい。

PC操作がネイティブで使えるようになったのも大きい。Claude 4.5のComputer Useに続いて、「AIにPCを操作させる」という方向性がフロンティアモデルの標準装備になりつつある。

ただ、ベンチマークを見ると「これ1つで全部OK」という万能モデルはまだ存在しない。コーディングならClaude、推論ならGemini、知識労働とPC操作ならGPT-5.4。適材適所で使い分けるのが当面の正解だろう。