Benchmark · Reasoning

ARC-AGI-2

ARC-AGI-2 · the second iteration of the Abstraction and Reasoning Corpus, testing novel pattern recognition and abstract reasoning without prior training data.

Updated 2026-03-05

Models tested

Top score

83.3

GPT-5.4 Pro

Median

4.7

min 0.1

Top-5 spread

σ 7.7

wide open

The Frontier

Best score over time · one chart, every benchmark

Chart type

Frontier on ARC-AGI-2 rose from 0.1 to 83.3 in 20 months · +83.2 points · latest leader GPT-5.4 Pro from OpenAI.

Pink dots = frontier records · 13 totalClick to open model page

Distribution

Where models cluster

Correlated benchmarks

Pearson r · original research

Correlation analysis

Benchmarks that track with ARC-AGI-2

Pearson correlation across models scored on both benchmarks. Closer to 1 = strongly predictive.

GSO-BenchCode

+0.94

16 shared

LiveBench · Agentic CodingKnowledge

PostTrainBenchKnowledge

Full rankings

50 models tested · sorted by score

#	Model	Score	Price
1	GPT-5.4 Pro· OpenAI	83.3	$30.00
2	Gemini 3.1 Pro Preview· Google DeepMind	77.1	$2.00
3	GPT-5.4· OpenAI	74.0	$2.50
4	Claude Opus 4.6· Anthropic	69.2	$5.00
5	Claude Sonnet 4.6· Anthropic	60.4	$3.00
6	GPT-5.2 Pro· OpenAI	54.2	$21.00
7	GPT-5.2· OpenAI	52.9	$1.75
8	Claude Opus 4.5· Anthropic	37.6	$5.00
9	Gemini 3 Flash Preview· Google DeepMind	33.6	$0.50
10	Gemini 3 Pro· Google DeepMind	31.1	—
11	GPT-5 Pro· OpenAI	18.3	$15.00
12	GPT-5.1· OpenAI	17.6	$1.25
13	Grok 4· xAI	16.0	$3.00
14	Claude Sonnet 4.5· Anthropic	13.6	$3.00
15	Kimi K2.5· moonshotai	11.8	$0.38
16	GPT-5· OpenAI	9.9	$1.25
17	Claude Opus 4· Anthropic	8.6	$15.00
18	o3· OpenAI	6.5	$2.00
19	o4 Mini· OpenAI	6.1	$1.10
20	Claude Sonnet 4· Anthropic	5.9	$3.00
21	Grok 4 Fast· xAI	5.3	$0.20
22	Gemini 2.5 Pro· Google DeepMind	4.9	$1.25
23	GLM 5· z-ai	4.9	$0.72
24	MiniMax M2.5· minimax	4.9	$0.12
25	o3 Pro· OpenAI	4.9	$20.00
26	GPT-5 Mini· OpenAI	4.4	$0.25
27	Claude Haiku 4.5· Anthropic	4.0	$1.00
28	DeepSeek V3.2· DeepSeek	4.0	$0.26
29	o3 Mini· OpenAI	3.0	$1.10
30	GPT-5 Nano· OpenAI	2.6	$0.05
31	Gemini 2.5 Flash· Google DeepMind	2.5	$0.30
32	Gemini 2.0 Flash· Google DeepMind	1.3	$0.10
33	R1· DeepSeek	1.3	$0.70
34	Qwen3 235B A22B Instruct 2507· Alibaba Qwen	1.3	$0.07
35	R1 0528· DeepSeek	1.1	$0.50
36	Claude 3.7 Sonnet· Anthropic	0.9	$3.00
37	o1-mini· OpenAI	0.8	—
38	Gemini 1.5 Pro (Feb 2024)· Google DeepMind	0.8	—
39	GPT-4.5· OpenAI	0.8	—
40	GPT-4.1· OpenAI	0.4	$2.00
41	Grok 3 Mini· xAI	0.4	$0.30
42	GPT-4.1 Mini· OpenAI	0.1	$0.40
43	GPT-4.1 Nano· OpenAI	0.1	$0.10
44	GPT-4o (2024-11-20)· OpenAI	0.1	$2.50
45	GPT-4o-mini· OpenAI	0.1	$0.15
46	GPT-4o-mini (2024-07-18)· OpenAI	0.1	$0.15
47	Grok 3· xAI	0.1	$3.00
48	Llama 4 Maverick· Meta	0.1	$0.15
49	Llama 4 Scout· Meta	0.1	$0.08
50	U Magistral Small 1.1· Unknown	0.1	—