#	Model	Score	Price
1	Gemini 3 Pro· Google DeepMind	90.3	—
2	Gemini 2.5 Pro· Google DeepMind	86.3	$1.25
3	GPT-5 Chat· OpenAI	86.3	$1.25
4	o3· OpenAI	85.9	$2.00
5	Grok 4· xAI	85.1	$3.00
6	GPT-5 Mini· OpenAI	83.5	$0.25
7	o4 Mini· OpenAI	82.0	$1.10
8	Kimi K2 0711· moonshotai	81.9	$0.57
9	GPT-4.1· OpenAI	81.1	$2.00
10	Palmyra X5· writer	80.4	$0.60
11	Grok 3 Mini Beta· xAI	79.9	$0.30
12	gpt-oss-120b· OpenAI	79.5	$0.04
13	R1 0528· DeepSeek	79.3	$0.50
14	Grok 3 Beta· xAI	78.8	$3.00
15	Qwen3 Next 80B A3B Thinking· Alibaba Qwen	78.6	$0.10
16	Claude 3.7 Sonnet· Anthropic	78.4	$3.00
17	GPT-4.1 Mini· OpenAI	78.3	$0.40
18	GPT-5 Nano· OpenAI	77.8	$0.05
19	Claude 3.5 Sonnet· Anthropic	77.7	—
20	gpt-oss-20b· OpenAI	74.0	$0.03
21	Gemini 1.5 Pro (Feb 2024)· Google DeepMind	73.7	—
22	Gemini 2.0 Flash· Google DeepMind	73.7	$0.10
23	DeepSeek V3· DeepSeek	72.3	$0.32
24	Gemini 2.0 Flash Lite· Google DeepMind	72.0	$0.07
25	GPT-4o (2024-11-20)· OpenAI	71.3	$2.50
26	Gemini 1.5 Flash (May 2024)· Google DeepMind	67.8	—
27	Gemini 2.5 Flash· Google DeepMind	63.9	$0.30
28	Mistral Small 3.1 24B· Mistral AI	61.0	$0.35
29	Claude 3.5 Haiku· Anthropic	60.5	$0.80
30	GPT-4o-mini (2024-07-18)· OpenAI	60.3	$0.15
31	Mistral Large 2411· Mistral AI	59.9	$2.00
32	GPT-5.1· OpenAI	57.9	$1.25
33	GPT-4.1 Nano· OpenAI	55.0	$0.10
34	Gemini 2.5 Flash Lite· Google DeepMind	53.7	$0.10

Frequently asked

Pulled from the HELM · MMLU-Pro dataset · updated daily

What does HELM · MMLU-Pro measure?

HELM · MMLU-Pro is a knowledge benchmark in the BenchGecko catalog. 34 AI models have been tested on it. Scores range from 53.7 to 90.3 out of 100.

Which model leads on HELM · MMLU-Pro?

Gemini 3 Pro from Google DeepMind leads HELM · MMLU-Pro with a score of 90.3. The median score across 34 tested models is 78.0.

Is HELM · MMLU-Pro saturated?

No · the top score is 90.3 out of 100 (90%). There is still meaningful room for improvement on HELM · MMLU-Pro.

Does HELM · MMLU-Pro predict performance on other benchmarks?

Yes · HELM · MMLU-Pro scores correlate 0.94 with HELM · GPQA across 34 shared models. Models that do well on HELM · MMLU-Pro tend to do well on HELM · GPQA.

How often is HELM · MMLU-Pro data refreshed?

BenchGecko pulls updates daily. New model scores on HELM · MMLU-Pro appear as soon as they are published by Epoch AI or the model provider.