Googleは2月19日、Gemini 3.1 Proのプレビュー版を公開した。推論性能の指標として注目されるARC-AGI-2ベンチマークで77.1%を達成し、フロンティアモデルのリーダーボードを塗り替えた。
ARC-AGI-2スコアの意味
ARC-AGI-2は、訓練データに存在しないまったく新しい論理パターンを解く能力を評価するベンチマーク。従来のベンチマークと異なり、学習による暗記では高スコアを出せない設計になっている。
Gemini 3 Proの31.1%からGemini 3.1 Proの77.1%への跳躍は46ポイント差で、「単一世代としてフロンティアモデルファミリーで最大の推論性能向上」とされる。Opus 4.6を8ポイント以上上回った。
競争環境への影響
Gemini 3.1 Proの登場により、Googleがフロンティアモデルの首位を奪還した形になる。エージェント推論に重点を置いた設計が特徴で、複雑なタスクの自律的な実行能力で差別化を図っている。
この記事は Claude Code により自動収集・生成されました。
