LIVETracking 971 AI models from 268 providers.

Models971·Providers268·Benchmarks128·Companies71·Agents165·TopQwen3 VL 235B A22B Instruct · 1415.8%·Updatedjust now·Data Points2,902·MCP Servers4,923

Benchmark · Knowledge

HELM · Omni-MATH

Updated 2026-01-21

Models tested

34

Top score

72.2

GPT-5 Mini

Median

44.1

min 22.4

Top-5 spread

σ 2.6

competitive

The Frontier

Best score over time · one chart, every benchmark

Chart type

Frontier on HELM · Omni-MATH rose from 28.0 to 72.2 in 13 months · +44.2 points · latest leader GPT-5 Mini from OpenAI.

Pink dots = frontier records · 11 totalClick to open model page

Distribution

Where models cluster

Correlated benchmarks

Pearson r · original research

Correlation analysis

Benchmarks that track with HELM · Omni-MATH

Pearson correlation across models scored on both benchmarks. Closer to 1 = strongly predictive.

VideoMMEMultimodal

OTIS Mock AIME 2024-2025Math

MATH level 5Math

FrontierMath-2025-02-28-PrivateMath

GPQA diamondReasoning

Full rankings

34 models tested · sorted by score

#	Model	Score	Price	Bar
1	GPT-5 Mini· OpenAI	72.2	$0.25
2	o4 Mini· OpenAI	72.0	$1.10
3	o3· OpenAI	71.4	$2.00
4	gpt-oss-120b· OpenAI	68.8	$0.04
5	Kimi K2 0711· moonshotai	65.4	$0.57
6	GPT-5 Chat· OpenAI	64.7	$1.25
7	Grok 4· xAI	60.3	$3.00
8	gpt-oss-20b· OpenAI	56.5	$0.03
9	Gemini 3 Pro· Google DeepMind	55.6	—
10	GPT-5 Nano· OpenAI	54.7	$0.05
11	GPT-4.1 Mini· OpenAI	49.1	$0.40
12	Gemini 2.5 Flash Lite· Google DeepMind	48.0	$0.10
13	GPT-4.1· OpenAI	47.1	$2.00
14	Qwen3 Next 80B A3B Thinking· Alibaba Qwen	46.7	$0.10
15	GPT-5.1· OpenAI	46.4	$1.25
16	Grok 3 Beta· xAI	46.4	$3.00
17	Gemini 2.0 Flash· Google DeepMind	45.9	$0.10
18	R1 0528· DeepSeek	42.4	$0.50
19	Gemini 2.5 Pro· Google DeepMind	41.6	$1.25
20	Palmyra X5· writer	41.5	$0.60
21	DeepSeek V3· DeepSeek	40.3	$0.32
22	Gemini 2.5 Flash· Google DeepMind	38.4	$0.30
23	Gemini 2.0 Flash Lite· Google DeepMind	37.4	$0.07
24	GPT-4.1 Nano· OpenAI	36.7	$0.10
25	Gemini 1.5 Pro (Feb 2024)· Google DeepMind	36.4	—
26	Claude 3.7 Sonnet· Anthropic	33.0	$3.00
27	Grok 3 Mini Beta· xAI	31.8	$0.30
28	Gemini 1.5 Flash (May 2024)· Google DeepMind	30.5	—
29	GPT-4o (2024-11-20)· OpenAI	29.3	$2.50
30	Mistral Large 2411· Mistral AI	28.1	$2.00
31	GPT-4o-mini (2024-07-18)· OpenAI	28.0	$0.15
32	Claude 3.5 Sonnet· Anthropic	27.6	—
33	Mistral Small 3.1 24B· Mistral AI	24.8	$0.35
34	Claude 3.5 Haiku· Anthropic	22.4	$0.80

Frequently asked

Pulled from the HELM · Omni-MATH dataset · updated daily

What does HELM · Omni-MATH measure?

HELM · Omni-MATH is a knowledge benchmark in the BenchGecko catalog. 34 AI models have been tested on it. Scores range from 22.4 to 72.2 out of 100.

Which model leads on HELM · Omni-MATH?

GPT-5 Mini from OpenAI leads HELM · Omni-MATH with a score of 72.2. The median score across 34 tested models is 44.1.

Is HELM · Omni-MATH saturated?

No · the top score is 72.2 out of 100 (72%). There is still meaningful room for improvement on HELM · Omni-MATH.

Does HELM · Omni-MATH predict performance on other benchmarks?

Yes · HELM · Omni-MATH scores correlate 0.86 with Cybench across 5 shared models. Models that do well on HELM · Omni-MATH tend to do well on Cybench.

How often is HELM · Omni-MATH data refreshed?

BenchGecko pulls updates daily. New model scores on HELM · Omni-MATH appear as soon as they are published by Epoch AI or the model provider.

Top on HELM · Omni-MATH

GPT-5 Mini · 72.2 o4 Mini · 72.0 o3 · 71.4 gpt-oss-120b · 68.8 Kimi K2 0711 · 65.4

Related topics

Knowledge category All benchmarks Model leaderboard Methodology

Compare models

GPT-5 Mini vs o4 Mini o4 Mini vs o3 o3 vs gpt-oss-120b gpt-oss-120b vs Kimi K2 0711

More knowledge benchmarks

Same category · related evaluations

Chatbot Arena Elo · Overall

BBH (HuggingFace)

Artificial Analysis · Quality Index