Which model leads on OTIS Mock AIME 2024-2025?

GPT-5.2 from OpenAI leads OTIS Mock AIME 2024-2025 with a score of 96.1. The median score across 86 tested models is 34.9.

Is OTIS Mock AIME 2024-2025 saturated?

Yes · the top model on OTIS Mock AIME 2024-2025 has reached 96.1 out of 100, within 5% of the theoretical ceiling. This benchmark is approaching saturation and may be replaced by a harder successor.

Does OTIS Mock AIME 2024-2025 predict performance on other benchmarks?

Yes · OTIS Mock AIME 2024-2025 scores correlate 0.96 with OpenCompass · MMLU-Pro across 10 shared models. Models that do well on OTIS Mock AIME 2024-2025 tend to do well on OpenCompass · MMLU-Pro.

How often is OTIS Mock AIME 2024-2025 data refreshed?

BenchGecko pulls updates daily. New model scores on OTIS Mock AIME 2024-2025 appear as soon as they are published by Epoch AI or the model provider.

Benchmark · MathSettled

OTIS Mock AIME 2024-2025

Name: OTIS Mock AIME 2024-2025 Benchmark
Creator: BenchGecko
License: https://creativecommons.org/licenses/by/4.0/

OTIS Mock AIME 2024-2025 · simulated American Invitational Mathematics Examination problems testing advanced problem-solving skills.

Updated 2026-03-05

Models tested

Top score

96.1

GPT-5.2

Median

34.9

min 0.5

Top-5 spread

σ 1.2

Settled

The Frontier

Best score over time · one chart, every benchmark

Chart type

Frontier on OTIS Mock AIME 2024-2025 rose from 9.6 to 96.1 in 17 months · +86.5 points · latest leader GPT-5.2 from OpenAI.

Pink dots = frontier records · 9 totalClick to open model page

Full rankings

86 models tested · sorted by score

#	Model	Score	Price
1	GPT-5.2· OpenAI	96.1	$1.75
2	Gemini 3.1 Pro Preview· Google DeepMind	95.6	$2.00
3	GPT-5.4· OpenAI	95.3	$2.50
4	Claude Opus 4.6· Anthropic	94.4	$5.00
5	Gemini 3 Flash Preview· Google DeepMind	92.8	$0.50
6	Kimi K2.5· moonshotai	92.2	$0.44
7	Gemini 3 Pro· Google DeepMind	91.4	—
8	GPT-5· OpenAI	91.4	$1.25
9	U Muse Spark· Unknown	88.9	—
10	gpt-oss-120b· OpenAI	88.9	$0.04
11	GPT-5.1· OpenAI	88.6	$1.25
12	DeepSeek V3.2· DeepSeek	87.8	$0.25
13	GPT-5 Mini· OpenAI	86.7	$0.25
14	Qwen3 235B A22B Thinking 2507· Alibaba Qwen	86.7	$0.15
15	Claude Opus 4.5· Anthropic	86.1	$5.00
16	Claude Sonnet 4.6· Anthropic	85.8	$3.00
17	Gemini 2.5 Pro· Google DeepMind	84.7	$1.25
18	Grok 4· xAI	84.0	$3.00
19	o3· OpenAI	83.9	$2.00
20	GLM 4.7· z-ai	83.3	$0.38
21	Kimi K2 Thinking· moonshotai	83.0	$0.60
22	o4 Mini· OpenAI	81.7	$1.10
23	GPT-5 Nano· OpenAI	81.1	$0.05
24	GLM 5· z-ai	80.0	$0.60
25	Claude Sonnet 4.5· Anthropic	77.8	$3.00
26	Grok 3 Mini· xAI	77.8	$0.30
27	o3 Mini· OpenAI	76.9	$1.10
28	o1· OpenAI	73.3	$15.00
29	Qwen3 Max· Alibaba Qwen	73.3	$0.78
30	Gemini 2.5 Flash· Google DeepMind	73.0	$0.30
31	Claude Sonnet 4· Anthropic	71.1	$3.00
32	Claude Opus 4.1· Anthropic	68.9	$15.00
33	Claude Haiku 4.5· Anthropic	66.6	$1.00
34	R1 0528· DeepSeek	66.4	$0.50
35	Claude Opus 4· Anthropic	64.4	$15.00
36	Claude 3.7 Sonnet· Anthropic	57.7	$3.00
37	Gemini 2.0 Flash Thinking (Jan 2025)· Google DeepMind	57.7	—
38	Grok 3· xAI	55.5	$3.00
39	R1· DeepSeek	53.3	$0.70
40	o1-mini· OpenAI	46.9	—
41	GPT-4.1 Mini· OpenAI	44.7	$0.40
42	GPT-4.1· OpenAI	38.3	$2.00
43	GPT-4.5· OpenAI	37.7	—
44	Mistral Medium 3· Mistral AI	32.1	$0.40
45	Gemini 2.0 Flash· Google DeepMind	31.0	$0.10
46	o1-preview· OpenAI	31.0	—
47	U Magistral Small 1.1· Unknown	29.9	—
48	GPT-4.1 Nano· OpenAI	28.8	$0.10
49	Llama 4 Maverick· Meta	20.5	$0.15
50	Gemma 3 27B· Google DeepMind	19.6	$0.08
51	Gemma 3 27B (free)· Google DeepMind	19.6	$0.00
52	Qwen2.5-Max· Alibaba Qwen	16.0	—
53	DeepSeek V3· DeepSeek	15.8	$0.32
54	Phi 4· Microsoft	13.7	$0.07
55	Grok-2 (Dec 2024)· xAI	11.4	—
56	Llama 3.1 405B· Meta	9.6	—
57	Mistral Large 2407· Mistral AI	8.4	$2.00
58	Qwen2.5 72B Instruct· Alibaba Qwen	8.0	$0.36
59	Llama 4 Scout· Meta	7.7	$0.08
60	Mistral Large 2411· Mistral AI	7.7	$2.00
61	GPT-4o-mini· OpenAI	6.8	$0.15
62	GPT-4o-mini (2024-07-18)· OpenAI	6.8	$0.15
63	Gemini 1.5 Pro (Feb 2024)· Google DeepMind	6.7	—
64	Claude 3.5 Sonnet· Anthropic	6.4	—
65	GPT-4o (2024-08-06)· OpenAI	6.3	$2.50
66	GPT-4o (2024-11-20)· OpenAI	6.3	$2.50
67	GPT-4o (2024-05-13)· OpenAI	6.2	$5.00
68	Llama 3.3 70B Instruct (free)· Meta	5.0	$0.00
69	Claude 3 Opus· Anthropic	4.6	—
70	Claude 3.5 Haiku· Anthropic	4.2	$0.80
71	Llama 3 70B Instruct· Meta	4.2	$0.51
72	Gemini 1.5 Flash (May 2024)· Google DeepMind	3.8	—
73	Llama 3.1 70B Instruct· Meta	3.5	$0.40
74	Llama 3.2 90B· Meta	2.5	—
75	Claude 2· Anthropic	2.4	—
76	Claude 3 Sonnet· Anthropic	2.4	—
77	Llama 3.1 8B Instruct· Meta	2.4	$0.02
78	Claude 2.1· Anthropic	1.9	—
79	Mistral Large· Mistral AI	1.9	$2.00
80	Claude 3 Haiku· Anthropic	1.7	$0.25
81	Gemma 2 27B· Google DeepMind	1.3	$0.65
82	Gemini 1.0 Pro· Google DeepMind	1.0	—
83	GPT-4 Turbo· OpenAI	1.0	$10.00
84	Llama 3 8B Instruct· Meta	0.7	$0.03
85	Gemma 2 9B· Google DeepMind	0.5	$0.03
86	GPT-4 (older v0314)· OpenAI	0.5	$30.00