#	Model	Score	Price
1	Qwen2-72B· Alibaba Qwen	52.6	—
2	Qwen2.5 32B Instruct· Alibaba	51.9	—
3	Qwen2.5 72B Instruct· Alibaba Qwen	51.4	$0.12
4	HA Qwen2.5 72B Instruct Abliterated· HuiHui AI	50.4	—
5	Phi 4· Microsoft	48.6	$0.07
6	Llama 3.3 70B Instruct· Meta	48.1	$0.10
7	Llama 3.1 70B Instruct· Meta	47.9	$0.40
8	Qwen2.5 14B Instruct· Alibaba	43.2	—
9	R1 Distill Llama 70B· DeepSeek	41.6	$0.70
10	Hermes 3 70B Instruct· nousresearch	41.4	$0.30
11	Meta Llama 3 8B· Meta	41.2	—
12	R1 Distill Qwen 32B· DeepSeek	41.0	$0.29
13	DeepSeek R1 Distill Qwen 14B· DeepSeek	40.7	—
14	WizardLM-2 8x22B· Microsoft	40.0	$0.62
15	D Dolphin 2.9.1 Yi 1.5 34b· DPHN	39.1	—
16	Gemma 2 27B· Google DeepMind	38.4	$0.65
17	Qwen2.5 Coder 32B Instruct· Alibaba Qwen	37.9	$0.66
18	U Yi 6B· Unknown	37.9	—
19	Qwen2.5 7B Instruct· Alibaba Qwen	36.5	$0.04
20	GLM 4 32B · z-ai	34.9	$0.10
21	Qwen2 VL 7B Instruct· Alibaba	34.4	—
22	Phi 3 Mini 4k Instruct· Microsoft	33.6	—
23	Phi 3.5 Mini Instruct· Microsoft	32.9	—
24	Qwen2.5 Coder 14B Instruct· Alibaba	32.7	—
25	Phi 4 Mini Instruct· Microsoft	32.6	—
26	Gemma 2 9B· Google DeepMind	31.9	$0.03
27	Qwen2 7B Instruct· Alibaba	31.6	—
28	Magnum v4 72B· anthracite-org	31.4	$3.00
29	Llama 3.1 8B Instruct· Meta	30.9	$0.02
30	Meta Llama 3 8B Instruct· Meta	29.6	—
31	Qwen2.5 Coder 7B Instruct· Alibaba Qwen	26.1	$0.03
32	U Stable Beluga 2· Unknown	25.9	—
33	Llama 3.1 405B· Meta	25.7	—
34	Qwen2.5 3B Instruct· Alibaba	25.1	—
35	Llama 3.2 3B Instruct· Meta	24.4	$0.05
36	LLaMA-13B· Meta	23.1	—
37	Hermes 2 Pro - Llama-3 8B· nousresearch	22.8	$0.14
38	Mistral 7B V0.1· Mistral AI	22.4	—
39	Gemma 2B· Google DeepMind	21.6	—
40	Qwen2.5 1.5B Instruct· Alibaba	20.0	—
41	Mistral 7B Instruct V0.2· Mistral AI	19.1	—
42	Phi 2· Microsoft	18.1	—
43	Llama 3 8B Instruct· Meta	17.8	$0.03
44	Gemma 2 2b It· Google DeepMind	17.2	—
45	Qwen2 1.5B Instruct· Alibaba	16.7	—
46	Llama 3.2 3B Instruct (free)· Meta	16.5	$0.00
47	Mistral 7B Instruct v0.1· Mistral AI	15.7	$0.11
48	Falcon-180B· TII	15.4	—
49	U StarCoder 2 15B· Unknown	15.0	—
50	DeepSeek R1 Distill Qwen 7B· DeepSeek	14.7	—
51	Gemma 2 2b· Google DeepMind	13.5	—
52	L Vicuna 7b V1.5· LMSYS	12.7	—
53	DeepSeek R1 Distill Llama 8B· DeepSeek	12.1	—
54	Llama 2 7b Hf· Meta	9.6	—
55	Llama 3.2 1B Instruct· Meta	8.2	$0.03
56	Qwen2 0.5B· Alibaba	8.0	—
57	Qwen2.5 0.5B Instruct· Alibaba	8.0	—
58	Phi-1.5· Microsoft	7.7	—
59	Llama 2 7b Chat Hf· Meta	7.6	—
60	Qwen2 0.5B Instruct· Alibaba	5.9	—
61	U MPT-30B· Unknown	2.3	—
62	QwQ 32B· Alibaba Qwen	2.2	$0.15
63	DeepSeek R1 Distill Qwen 1.5B· DeepSeek	2.1	—
64	D Distilgpt2· DistilBERT	2.1	—
65	Gpt2 Medium· OpenAI	2.0	—
66	Gpt2· OpenAI	1.8	—
67	Gpt2 Large· OpenAI	1.6	—
68	U INTELLECT-1· Unknown	1.3	—
69	Pythia 160m· eleutherai	1.3	—
70	HF SmolLM2 135M Instruct· Hugging Face TB	1.3	—
71	T TinyLlama 1.1B Chat V1.0· TinyLlama	1.1	—
72	HF SmolLM2 135M· Hugging Face TB	1.1	—
73	Gpt Neo 125m· eleutherai	0.3	—

Frequently asked

Pulled from the MMLU-PRO dataset · updated daily

What does MMLU-PRO measure?

MMLU-PRO is a knowledge benchmark in the BenchGecko catalog. 73 AI models have been tested on it. Scores range from 0.3 to 52.6 out of 100.

Which model leads on MMLU-PRO?

Qwen2-72B from Alibaba Qwen leads MMLU-PRO with a score of 52.6. The median score across 73 tested models is 22.8.

Is MMLU-PRO saturated?

No · the top score is 52.6 out of 100 (53%). There is still meaningful room for improvement on MMLU-PRO.

Does MMLU-PRO predict performance on other benchmarks?

Yes · MMLU-PRO scores correlate 0.94 with BBH (HuggingFace) across 73 shared models. Models that do well on MMLU-PRO tend to do well on BBH (HuggingFace).

How often is MMLU-PRO data refreshed?

BenchGecko pulls updates daily. New model scores on MMLU-PRO appear as soon as they are published by Epoch AI or the model provider.