GPT-5.5 ProがEpoch Capabilities Indexで歴代最高159を記録——AIの「偏差値」はどこまで上がるのか

AIモデルの「偏差値」にあたる統一指標で、GPT-5.5 Proが歴代最高の159を叩き出した。2026年4月28日にエポックAI（Epoch AI）が公表した数値だ。同機関のエポック・ケイパビリティ・インデックス（Epoch Capabilities Index、以下ECI）はGPT-5が150、クロード 3.5 ソネット（Claude 3.5 Sonnet）が130だったから、GPT-5超えのペースが明らかに加速している。個別ベンチマークの数字合戦は正直もう追いきれないが、37本を1本に束ねたスコアなら「結局いまどこまで来たのか」が一目で分かる。

37本のベンチマークを1本にまとめる仕組み

ECIは項目応答理論（Item Response Theory）を使い、FrontierMath、GPQA Diamond、SWE-bench、ARC-AGI-2、SimpleQAなど37種類のベンチマークを1本のスケールに統合する。各テストの難易度と各モデルの能力を同時に推定する手法で、教育テストの偏差値算出と同じ発想だ。

スケールの基準点はクロード 3.5 ソネット＝130、GPT-5＝150。10ポイントの差がスケールのどこでも同じ程度の能力差を意味するよう設計されている。つまり159のGPT-5.5 Proは、GPT-5からさらに「偏差値9ポイント分」上にいる。

開発元が公表した数値だけでなく、外部リーダーボードや独自評価も取り込むことで、各社のチェリーピッキングを薄めている。

6倍の価格で数学の未解決問題を解く

GPT-5.5 Proは2026年4月23日リリースのGPT-5.5の上位モデルだ。API価格は入力30ドル／100万トークン、出力180ドル／100万トークン。通常版（入力5ドル、出力30ドル）の6倍を払う代わりに、推論時間を延ばして精度を引き上げる。日常的なチャットに使うものではなく、「正解を出すこと自体に高い価値がある」タスク向けだ。

その用途を象徴するのがFrontierMathでの結果だろう。Tier 1〜3で52%（従来50%）、Tier 4で40%（従来38%）を達成し、数学者ハイロン・ダオ（Hailong Dao）とアフサン・カーン（Ahsan Khan）が作成した未解決のTier 4問題を2問解いた。数学の最前線で「解けるか解けないか」が分かれる領域に、コスト次第で踏み込めるようになったことを示している。

通常版GPT-5.5もARC-AGI v2で85%（1位）、MMMU-Proで83.2%（1位）、Terminal-Bench 2.0で82.7%（1位）と複数ベンチマークでトップだ。Pro版はさらにBrowseCompで90.1%、FrontierMathで39.6%まで押し上げた。

年間8ポイントが15ポイントに——加速の裏側

エポックAIの分析によると、2024年4月以降のECIスコアの上昇速度は年間約15ポイントで、それ以前の2年間（年間約8ポイント）のほぼ2倍だ。GPT-4からGPT-5までに約2年かかった20ポイントの差を、GPT-5からGPT-5.5 Proはわずか数ヶ月で9ポイント詰めた。

加速の背景には、推論時計算（inference-time compute）の導入が大きい。従来のスケーリング則はパラメータ数と学習データ量が主軸だったが、Pro版のように「推論に金と時間をかければ精度が上がる」経路が加わったことで、同じモデル重みでも出せるスコアの上限が伸びた。アーキテクチャの刷新というより、使い方の工夫で絞り出したポイントという側面がある。

ただしECIの開発元自身が認めているとおり、モデル開発者によるベンチマーク最適化の余地は排除できない。テスト対策的な伸びと真の汎用能力向上を完全に切り分ける手段は、まだない。

全勝モデルはもういない

2026年4月だけでOpenAIのGPT-5.5、アンソロピック（Anthropic）のクロード・オーパス 4.7（Claude Opus 4.7）、グーグルのジェミナイ 3.1 プロ（Gemini 3.1 Pro）が出揃った。単一モデルが全ベンチマークを総なめする状態は終わっている。コーディングならこっち、数学ならあっち、ブラウジングならこれ——選ぶ側の判断力が問われるフェーズだ。

ECIはこの混戦を俯瞰する道具として使える。個別ベンチマークの数字に振り回されるより、37本を束ねた1本のスコアのほうが「結局どのモデルが一番できるのか」を答えやすい。

年間15ポイントのペースが続くなら、2027年春には170前後のモデルが登場する計算だ。そこまで来ると「テスト対策で伸びた」では説明しきれない水準になる。そのとき問われるのはスコアの高さではなく「159から170で、人間が頼める仕事の範囲がどれだけ広がったか」のほうだろう。スコアが上がるほど、スコア自体の意味は薄れていく——そういうフェーズに入りつつある。

参考

この記事は Claude Opus 4.6 が執筆しました。

37本のベンチマークを1本にまとめる仕組み

6倍の価格で数学の未解決問題を解く

年間8ポイントが15ポイントに——加速の裏側

全勝モデルはもういない

参考

おすすめリンク