#	Model	Score	Price
1	Qwen2.5 32B Instruct· Alibaba	62.5	—
2	HA Qwen2.5 72B Instruct Abliterated· HuiHui AI	60.1	—
3	Qwen2.5 72B Instruct· Alibaba Qwen	59.8	$0.12
4	DeepSeek R1 Distill Qwen 14B· DeepSeek	57.0	—
5	Qwen2.5 14B Instruct· Alibaba	55.3	—
6	Phi 4· Microsoft	50.0	$0.07
7	Qwen2.5 7B Instruct· Alibaba Qwen	50.0	$0.04
8	Qwen2.5 Coder 32B Instruct· Alibaba Qwen	49.5	$0.66
9	Llama 3.3 70B Instruct· Meta	48.3	$0.10
10	Llama 3.1 70B Instruct· Meta	38.1	$0.40
11	Qwen2.5 Coder 7B Instruct· Alibaba Qwen	37.2	$0.03
12	Qwen2.5 3B Instruct· Alibaba	36.8	—
13	Qwen2.5 Coder 14B Instruct· Alibaba	32.5	—
14	Qwen2-72B· Alibaba Qwen	31.1	—
15	R1 Distill Llama 70B· DeepSeek	30.7	$0.70
16	Qwen2 7B Instruct· Alibaba	27.6	—
17	WizardLM-2 8x22B· Microsoft	25.0	$0.62
18	Gemma 2 27B· Google DeepMind	23.9	$0.65
19	Qwen2.5 1.5B Instruct· Alibaba	22.1	—
20	DeepSeek R1 Distill Llama 8B· DeepSeek	22.0	—
21	Hermes 3 70B Instruct· nousresearch	21.0	$0.30
22	Magnum v4 72B· anthracite-org	20.0	$3.00
23	Qwen2 VL 7B Instruct· Alibaba	19.9	—
24	Phi 3.5 Mini Instruct· Microsoft	19.6	—
25	DeepSeek R1 Distill Qwen 7B· DeepSeek	19.6	—
26	Gemma 2 9B· Google DeepMind	19.5	$0.03
27	D Dolphin 2.9.1 Yi 1.5 34b· DPHN	18.7	—
28	Meta Llama 3 8B· Meta	18.6	—
29	Llama 3.2 3B Instruct· Meta	17.7	$0.05
30	R1 Distill Qwen 32B· DeepSeek	17.1	$0.29
31	Phi 4 Mini Instruct· Microsoft	17.0	—
32	DeepSeek R1 Distill Qwen 1.5B· DeepSeek	16.9	—
33	Phi 3 Mini 4k Instruct· Microsoft	16.4	—
34	QwQ 32B· Alibaba Qwen	16.1	$0.15
35	Llama 3.1 8B Instruct· Meta	15.5	$0.02
36	Qwen2.5 0.5B Instruct· Alibaba	10.3	—
37	Meta Llama 3 8B Instruct· Meta	8.7	—
38	Hermes 2 Pro - Llama-3 8B· nousresearch	8.4	$0.14
39	Llama 3.2 1B Instruct· Meta	8.2	$0.03
40	Gemma 2B· Google DeepMind	7.4	—
41	Qwen2 1.5B Instruct· Alibaba	7.2	—
42	U StarCoder 2 15B· Unknown	6.0	—
43	U Yi 6B· Unknown	5.1	—
44	U Stable Beluga 2· Unknown	4.4	—
45	Llama 3 8B Instruct· Meta	3.9	$0.03
46	LLaMA-13B· Meta	3.1	—
47	Gemma 2 2b· Google DeepMind	3.0	—
48	Mistral 7B Instruct V0.2· Mistral AI	3.0	—
49	Mistral 7B V0.1· Mistral AI	3.0	—
50	Phi 2· Microsoft	3.0	—
51	Qwen2 0.5B Instruct· Alibaba	2.9	—
52	Falcon-180B· TII	2.8	—
53	Qwen2 0.5B· Alibaba	2.6	—
54	Mistral 7B Instruct v0.1· Mistral AI	2.3	$0.11
55	Llama 2 7b Chat Hf· Meta	2.0	—
56	Llama 3.2 3B Instruct (free)· Meta	1.9	$0.00
57	Phi-1.5· Microsoft	1.8	—
58	Llama 2 7b Hf· Meta	1.7	—
59	U MPT-30B· Unknown	1.6	—
60	T TinyLlama 1.1B Chat V1.0· TinyLlama	1.5	—
61	L Vicuna 7b V1.5· LMSYS	1.4	—
62	Gpt2 Large· OpenAI	1.2	—
63	HF SmolLM2 135M· Hugging Face TB	1.2	—
64	Pythia 160m· eleutherai	0.9	—
65	Gpt2 Medium· OpenAI	0.8	—
66	D Distilgpt2· DistilBERT	0.6	—
67	Gpt Neo 125m· eleutherai	0.6	—
68	HF SmolLM2 135M Instruct· Hugging Face TB	0.3	—
69	Gpt2· OpenAI	0.2	—
70	Gemma 2 2b It· Google DeepMind	0.1	—

Frequently asked

Pulled from the MATH Level 5 dataset · updated daily

What does MATH Level 5 measure?

MATH Level 5 is a knowledge benchmark in the BenchGecko catalog. 70 AI models have been tested on it. Scores range from 0.1 to 62.5 out of 100.

Which model leads on MATH Level 5?

Qwen2.5 32B Instruct from Alibaba leads MATH Level 5 with a score of 62.5. The median score across 70 tested models is 12.9.

Is MATH Level 5 saturated?

No · the top score is 62.5 out of 100 (63%). There is still meaningful room for improvement on MATH Level 5.

Does MATH Level 5 predict performance on other benchmarks?

Yes · MATH Level 5 scores correlate 0.98 with MATH level 5 across 9 shared models. Models that do well on MATH Level 5 tend to do well on MATH level 5.

How often is MATH Level 5 data refreshed?

BenchGecko pulls updates daily. New model scores on MATH Level 5 appear as soon as they are published by Epoch AI or the model provider.