Featured image of post GPT-5.4 登場 ─ 推論もコーディングもPC操作も1つのモデルで

GPT-5.4 登場 ─ 推論もコーディングもPC操作も1つのモデルで

OpenAIが3月5日、最新フロンティアモデル「GPT-5.4」をリリースした。ChatGPT、API、Codexで順次ロールアウトが始まっている。推論、コーディング、エージェント機能を1つのモデルに統合した、GPT-5シリーズの集大成的なアップデートだ。

3つのバリエーション

GPT-5.4は3つのバリエーションで提供される。

  • GPT-5.4:標準モデル。ChatGPTとAPIで利用可能
  • GPT-5.4 Thinking:推論特化。じっくり考えるタスク(戦略メモ、デューデリジェンス、多段階リサーチ)向け。Plus/Team/Pro向けで、3ヶ月後にGPT-5.2 Thinkingを置き換える
  • GPT-5.4 Pro:最高性能。複雑なタスクに最大の精度を求めるPro/Enterprise向け

GPT-5.3-Codexのコーディング能力も統合されており、推論モデルとコーディングモデルがついに一本化された。

初のネイティブPC操作対応

GPT-5.4の目玉は、汎用モデルとして初めてネイティブな「コンピュータ使用」機能を搭載したこと。スクリーンショットを見ながらマウスやキーボードを操作し、Playwrightなどのライブラリを使ってソフトウェアを直接操作できる。

デスクトップタスクのベンチマーク「OSWorld」で75%を記録し、人間のエキスパートを初めて上回った。「コードを書いて」ではなく「このアプリを操作して」が成り立つ時代が来つつある。

コンテキスト100万トークン

APIレベルでは最大100万トークンのコンテキストウィンドウをサポート。コードベース全体、長大な契約書、数四半期分の財務データを丸ごと1リクエストに入れられる。ただし272,000トークンを超えると入力単価が2倍になるので、何でもかんでも放り込めばいいというわけではない。

ベンチマーク:それぞれの強みが明確に

GPT-5.4の主要なベンチマーク結果はこんな感じ:

ベンチマークGPT-5.4備考
GDPval(知識労働)83%44職種の実務タスクで人間を上回る
OSWorld(PC操作)75%人間エキスパート超え
BrowseComp(Web検索)GPT-5.2比+17%Pro版は89.3%で最高記録
ファクト精度個別主張で33%↑、回答全体で18%↑GPT-5.2比

とはいえ、すべてのベンチマークで首位というわけではない。SWE-Bench Verified(コーディング)ではClaude Opus 4.6が80.8%でリード、GPQA Diamond(推論)ではGemini 3.1 Proが94.3%で上回っている。得意分野がモデルごとに分かれてきた感じだ。

API料金

モデル入力(100万トークン)出力(100万トークン)
gpt-5.4$2.50$15
gpt-5.4-pro$30$180

標準版の価格はかなり手頃。Pro版は桁が違うが、精度が求められるエンタープライズ用途向けの位置づけだ。

APIには「Tool Search」という新機能も追加されていて、必要なツール定義だけを動的に取得することでトークン消費を47%削減できるという。ツールを大量に登録するエージェント開発者には嬉しい改善。

所感

GPT-5シリーズは5.2で推論、5.3でコーディングと個別に進化してきたが、5.4でそれらが1つのモデルに統合された。「どのモデルを使えばいいのか」という悩みが減るのは純粋にありがたい。

PC操作がネイティブで使えるようになったのも大きい。Claude 4.5のComputer Useに続いて、「AIにPCを操作させる」という方向性がフロンティアモデルの標準装備になりつつある。

ただ、ベンチマークを見ると「これ1つで全部OK」という万能モデルはまだ存在しない。コーディングならClaude、推論ならGemini、知識労働とPC操作ならGPT-5.4。適材適所で使い分けるのが当面の正解だろう。

参考

Hugo で構築されています。
テーマ StackJimmy によって設計されています。