OpenAIが3月5日、最新フロンティアモデル「GPT-5.4」をリリースした。ChatGPT、API、Codexで順次ロールアウトが始まっている。推論、コーディング、エージェント機能を1つのモデルに統合した、GPT-5シリーズの集大成的なアップデートだ。
3つのバリエーション
GPT-5.4は3つのバリエーションで提供される。
- GPT-5.4:標準モデル。ChatGPTとAPIで利用可能
- GPT-5.4 Thinking:推論特化。じっくり考えるタスク(戦略メモ、デューデリジェンス、多段階リサーチ)向け。Plus/Team/Pro向けで、3ヶ月後にGPT-5.2 Thinkingを置き換える
- GPT-5.4 Pro:最高性能。複雑なタスクに最大の精度を求めるPro/Enterprise向け
GPT-5.3-Codexのコーディング能力も統合されており、推論モデルとコーディングモデルがついに一本化された。
初のネイティブPC操作対応
GPT-5.4の目玉は、汎用モデルとして初めてネイティブな「コンピュータ使用」機能を搭載したこと。スクリーンショットを見ながらマウスやキーボードを操作し、Playwrightなどのライブラリを使ってソフトウェアを直接操作できる。
デスクトップタスクのベンチマーク「OSWorld」で75%を記録し、人間のエキスパートを初めて上回った。「コードを書いて」ではなく「このアプリを操作して」が成り立つ時代が来つつある。
コンテキスト100万トークン
APIレベルでは最大100万トークンのコンテキストウィンドウをサポート。コードベース全体、長大な契約書、数四半期分の財務データを丸ごと1リクエストに入れられる。ただし272,000トークンを超えると入力単価が2倍になるので、何でもかんでも放り込めばいいというわけではない。
ベンチマーク:それぞれの強みが明確に
GPT-5.4の主要なベンチマーク結果はこんな感じ:
| ベンチマーク | GPT-5.4 | 備考 |
|---|---|---|
| GDPval(知識労働) | 83% | 44職種の実務タスクで人間を上回る |
| OSWorld(PC操作) | 75% | 人間エキスパート超え |
| BrowseComp(Web検索) | GPT-5.2比+17% | Pro版は89.3%で最高記録 |
| ファクト精度 | 個別主張で33%↑、回答全体で18%↑ | GPT-5.2比 |
とはいえ、すべてのベンチマークで首位というわけではない。SWE-Bench Verified(コーディング)ではClaude Opus 4.6が80.8%でリード、GPQA Diamond(推論)ではGemini 3.1 Proが94.3%で上回っている。得意分野がモデルごとに分かれてきた感じだ。
API料金
| モデル | 入力(100万トークン) | 出力(100万トークン) |
|---|---|---|
| gpt-5.4 | $2.50 | $15 |
| gpt-5.4-pro | $30 | $180 |
標準版の価格はかなり手頃。Pro版は桁が違うが、精度が求められるエンタープライズ用途向けの位置づけだ。
APIには「Tool Search」という新機能も追加されていて、必要なツール定義だけを動的に取得することでトークン消費を47%削減できるという。ツールを大量に登録するエージェント開発者には嬉しい改善。
所感
GPT-5シリーズは5.2で推論、5.3でコーディングと個別に進化してきたが、5.4でそれらが1つのモデルに統合された。「どのモデルを使えばいいのか」という悩みが減るのは純粋にありがたい。
PC操作がネイティブで使えるようになったのも大きい。Claude 4.5のComputer Useに続いて、「AIにPCを操作させる」という方向性がフロンティアモデルの標準装備になりつつある。
ただ、ベンチマークを見ると「これ1つで全部OK」という万能モデルはまだ存在しない。コーディングならClaude、推論ならGemini、知識労働とPC操作ならGPT-5.4。適材適所で使い分けるのが当面の正解だろう。