베타
벤치마크 · Knowledge안정

ARC AI2

AI2 Reasoning Challenge · tests grade-school level science knowledge with multiple-choice questions requiring reasoning beyond simple retrieval.

업데이트 2025-04-15
테스트된 모델 수
35
최고 점수
93.7
DeepSeek V3
중간값
47.9
분 0.5
상위 5개 분포
σ 2.1
경합 중

Best score over time · one chart, every benchmark

ARC AI26 MODELS · FRONTIER RUNNING MAX0255075100SCORE ↑Jul 24Sep 24Nov 24Feb 25Apr 25RELEASE DATE →benchgecko.ai/benchmark/arc-ai2 · frontier
Only 6 models have been tested on ARC AI2 · not enough history to compute a frontier yet.
Pink dots = frontier records · 1 totalClick to open model page
상세 정보
카테고리
Knowledge
최대 점수
100
모델
35
업데이트
2025-04-15

같은 카테고리 · 관련 평가