LIVETracking 971 AI models from 268 providers.

Models971·Providers268·Benchmarks128·Companies71·Agents165·TopQwen3 VL 235B A22B Instruct · 1415.8%·Updatedjust now·Data Points2,902·MCP Servers4,923

Benchmark · Knowledge

HELM · GPQA

Updated 2026-01-21

Models tested

34

Top score

80.3

Gemini 3 Pro

Median

61.1

min 30.9

Top-5 spread

σ 2.2

competitive

The Frontier

Best score over time · one chart, every benchmark

Chart type

Frontier on HELM · GPQA rose from 36.8 to 79.1 in 13 months · +42.3 points · latest leader GPT-5 Chat from OpenAI.

Pink dots = frontier records · 10 totalClick to open model page

Distribution

Where models cluster

Correlated benchmarks

Pearson r · original research

Correlation analysis

Benchmarks that track with HELM · GPQA

Pearson correlation across models scored on both benchmarks. Closer to 1 = strongly predictive.

HELM · MMLU-ProKnowledge

Artificial Analysis · Quality IndexKnowledge

Artificial Analysis · Agentic IndexKnowledge

Artificial Analysis · Coding IndexKnowledge

MATH level 5Math

Full rankings

34 models tested · sorted by score

#	Model	Score	Price	Bar
1	Gemini 3 Pro· Google DeepMind	80.3	—
2	GPT-5 Chat· OpenAI	79.1	$1.25
3	GPT-5 Mini· OpenAI	75.6	$0.25
4	o3· OpenAI	75.3	$2.00
5	Gemini 2.5 Pro· Google DeepMind	74.9	$1.25
6	o4 Mini· OpenAI	73.5	$1.10
7	Grok 4· xAI	72.6	$3.00
8	gpt-oss-120b· OpenAI	68.4	$0.04
9	GPT-5 Nano· OpenAI	67.9	$0.05
10	Grok 3 Mini Beta· xAI	67.5	$0.30
11	R1 0528· DeepSeek	66.6	$0.50
12	Palmyra X5· writer	66.1	$0.60
13	GPT-4.1· OpenAI	65.9	$2.00
14	Kimi K2 0711· moonshotai	65.2	$0.57
15	Grok 3 Beta· xAI	65.0	$3.00
16	Qwen3 Next 80B A3B Thinking· Alibaba Qwen	63.0	$0.10
17	GPT-4.1 Mini· OpenAI	61.4	$0.40
18	Claude 3.7 Sonnet· Anthropic	60.8	$3.00
19	gpt-oss-20b· OpenAI	59.4	$0.03
20	Claude 3.5 Sonnet· Anthropic	56.5	—
21	Gemini 2.0 Flash· Google DeepMind	55.6	$0.10
22	DeepSeek V3· DeepSeek	53.8	$0.32
23	Gemini 1.5 Pro (Feb 2024)· Google DeepMind	53.4	—
24	GPT-4o (2024-11-20)· OpenAI	52.0	$2.50
25	GPT-4.1 Nano· OpenAI	50.7	$0.10
26	Gemini 2.0 Flash Lite· Google DeepMind	50.0	$0.07
27	GPT-5.1· OpenAI	44.2	$1.25
28	Gemini 1.5 Flash (May 2024)· Google DeepMind	43.7	—
29	Mistral Large 2411· Mistral AI	43.5	$2.00
30	Mistral Small 3.1 24B· Mistral AI	39.2	$0.35
31	Gemini 2.5 Flash· Google DeepMind	39.0	$0.30
32	GPT-4o-mini (2024-07-18)· OpenAI	36.8	$0.15
33	Claude 3.5 Haiku· Anthropic	36.3	$0.80
34	Gemini 2.5 Flash Lite· Google DeepMind	30.9	$0.10

Frequently asked

Pulled from the HELM · GPQA dataset · updated daily

What does HELM · GPQA measure?

HELM · GPQA is a knowledge benchmark in the BenchGecko catalog. 34 AI models have been tested on it. Scores range from 30.9 to 80.3 out of 100.

Which model leads on HELM · GPQA?

Gemini 3 Pro from Google DeepMind leads HELM · GPQA with a score of 80.3. The median score across 34 tested models is 61.1.

Is HELM · GPQA saturated?

No · the top score is 80.3 out of 100 (80%). There is still meaningful room for improvement on HELM · GPQA.

Does HELM · GPQA predict performance on other benchmarks?

Yes · HELM · GPQA scores correlate 0.97 with Cybench across 5 shared models. Models that do well on HELM · GPQA tend to do well on Cybench.

How often is HELM · GPQA data refreshed?

BenchGecko pulls updates daily. New model scores on HELM · GPQA appear as soon as they are published by Epoch AI or the model provider.

Top on HELM · GPQA

Gemini 3 Pro · 80.3 GPT-5 Chat · 79.1 GPT-5 Mini · 75.6 o3 · 75.3 Gemini 2.5 Pro · 74.9

Related topics

Knowledge category All benchmarks Model leaderboard Methodology

Compare models

Gemini 3 Pro vs GPT-5 Chat GPT-5 Chat vs GPT-5 Mini GPT-5 Mini vs o3 o3 vs Gemini 2.5 Pro

More knowledge benchmarks

Same category · related evaluations

Chatbot Arena Elo · Overall

BBH (HuggingFace)

Artificial Analysis · Quality Index