Beta
Benchmark · AgentGesättigt

APEX-Agents

APEX-Agents · evaluates AI agents on complex, multi-step tasks requiring planning, tool use, and autonomous decision-making in realistic environments.

Aktualisiert 2026-03-05
Getestete Modelle
17
Höchster Score
35.9
GPT-5.4
Median
18.3
Min. 3.0
Top-5-Spanne
σ 1.6
Gesättigt

Best score over time · one chart, every benchmark

APEX-AGENTS16 MODELS · FRONTIER RUNNING MAX0255075100SCORE ↑Jul 25Sep 25Nov 25Jan 26Mar 26RELEASE DATE →benchgecko.ai/benchmark/apex-agents · frontier
Frontier on APEX-Agents rose from 15.2 to 35.9 in 8 months · +20.7 points · latest leader GPT-5.4 from OpenAI.
Pink dots = frontier records · 5 totalClick to open model page

17 Modelle getestet · nach Score sortiert

Details
Kategorie
Agent
Max. Score
100
Modelle
17
Aktualisiert
2026-03-05

Gleiche Kategorie · verwandte Evaluierungen