베타
벤치마크 · Agent안정

APEX-Agents

APEX-Agents · evaluates AI agents on complex, multi-step tasks requiring planning, tool use, and autonomous decision-making in realistic environments.

업데이트 2026-03-05
테스트된 모델 수
17
최고 점수
35.9
GPT-5.4
중간값
18.3
분 3.0
상위 5개 분포
σ 1.6
안정

Best score over time · one chart, every benchmark

APEX-AGENTS16 MODELS · FRONTIER RUNNING MAX0255075100SCORE ↑Jul 25Sep 25Nov 25Jan 26Mar 26RELEASE DATE →benchgecko.ai/benchmark/apex-agents · frontier
Frontier on APEX-Agents rose from 15.2 to 35.9 in 8 months · +20.7 points · latest leader GPT-5.4 from OpenAI.
Pink dots = frontier records · 5 totalClick to open model page
상세 정보
카테고리
Agent
최대 점수
100
모델
17
업데이트
2026-03-05

같은 카테고리 · 관련 평가