ベータ
ベンチマーク · Agent確定的

APEX-Agents

APEX-Agents · evaluates AI agents on complex, multi-step tasks requiring planning, tool use, and autonomous decision-making in realistic environments.

更新日 2026-03-05
テスト済みモデル数
17
トップスコア
35.9
GPT-5.4
中央値
18.3
分 3.0
トップ5スプレッド
σ 1.6
確定的

Best score over time · one chart, every benchmark

APEX-AGENTS16 MODELS · FRONTIER RUNNING MAX0255075100SCORE ↑Jul 25Sep 25Nov 25Jan 26Mar 26RELEASE DATE →benchgecko.ai/benchmark/apex-agents · frontier
Frontier on APEX-Agents rose from 15.2 to 35.9 in 8 months · +20.7 points · latest leader GPT-5.4 from OpenAI.
Pink dots = frontier records · 5 totalClick to open model page

17 テスト済みモデル · スコア順

詳細
カテゴリ
Agent
最高スコア
100
モデル
17
更新日
2026-03-05

同カテゴリ · 関連する評価