Best AI Models for Math

Q: Which AI model is best at math?

Math rankings are updated live. Check the leaderboard above for the current leader on MATH-500, GSM8K, and competition-level math benchmarks.

Q: What is MATH-500?

MATH-500 is a curated subset of 500 competition-level math problems spanning multiple difficulty levels and topics including algebra, number theory, and geometry.

Q: Can AI solve competition math problems?

Top models now score above 95% on MATH-500 and are approaching human-competitive levels on AIME and Olympiad-style problems.

AI models ranked by math benchmarks. Compare MATH-500, GSM8K, and competition-level math scores across all providers.

120

Models

Providers

Open Source

$0.72

Median $/1M in

Top 3

Full Rankings

#	Model	Avg	frontierma	GSM8K	MATH level 5	otis mock	$/1M in	Context
1	Claude Instant🇺🇸 Anthropic	78.0	-	86.7	-	-	N/A	0K
2	GPT-5.4 Pro🇺🇸 OpenAI	66.7	50.0	-	-	-	$30.00	1.1M
3	Qwen-14B🇨🇳 Alibaba QwenOpen	60.7	-	61.3	-	-	N/A	0K
4	Gemini 3.1 Pro Preview🇺🇸 Google DeepMind	60.6	36.9	-	-	95.6	$2.00	1.0M
5	Gemini 3 Pro🇺🇸 Google DeepMind	60.5	37.6	-	-	91.4	N/A	0K
6	DeepSeek V3🇨🇳 DeepSeekOpen	59.0	1.7	-	64.8	15.8	$0.32	164K
7	GPT-5.4🇺🇸 OpenAI	59.0	47.6	-	-	95.3	$2.50	1.1M
8	U Muse Spark Unknown	59.0	39.0	-	-	88.9	N/A	0K
9	phi-3-medium 14B🇺🇸 MicrosoftOpen	58.6	-	-	17.6	-	N/A	0K
10	Qwen3 Max🇨🇳 Alibaba QwenOpen	58.3	-	-	97.1	73.3	$0.78	262K
11	Falcon 2 11B TIIOpen	58.0	-	53.8	-	-	N/A	0K
12	R1 0528🇨🇳 DeepSeekOpen	57.9	-	-	96.6	66.4	$0.50	164K
13	Mixtral 8x7B Instruct🇫🇷 Mistral AIOpen	57.8	-	74.4	9.9	-	$0.54	33K
14	GLM 5🇨🇳 z-aiOpen	57.6	16.4	-	-	80.0	$0.72	80K
15	Claude Opus 4.6🇺🇸 Anthropic	57.5	40.7	-	-	94.4	$5.00	1.0M
16	o1🇺🇸 OpenAI	56.4	9.3	-	94.7	73.3	$15.00	200K
17	Qwen3 235B A22B🇨🇳 Alibaba QwenOpen	56.4	-	-	68.9	-	$0.46	131K
18	Gemini 2.5 Pro🇺🇸 Google DeepMind	56.2	14.1	-	95.6	84.7	$1.25	1.0M
19	GPT-5.2 Pro🇺🇸 OpenAI	56.2	-	-	-	-	$21.00	400K
20	GPT-5 Mini🇺🇸 OpenAI	56.0	27.2	-	97.8	86.7	$0.25	400K
21	Qwen3 235B A22B Thinking 2507🇨🇳 Alibaba QwenOpen	55.9	8.5	-	-	86.7	$0.15	131K
22	o3🇺🇸 OpenAI	55.2	18.7	-	97.8	83.9	$2.00	200K
23	GPT-4 (older v0314)🇺🇸 OpenAI	55.0	-	92.0	-	0.5	$30.00	8K
24	Grok 4🇺🇸 xAI	54.8	19.7	-	-	84.0	$3.00	256K
25	GPT-5🇺🇸 OpenAI	54.4	32.4	-	98.1	91.4	$1.25	400K
26	GPT-5.2🇺🇸 OpenAI	54.0	40.7	-	-	96.1	$1.75	400K
27	Gemini 2.0 Pro🇺🇸 Google DeepMind	53.7	-	-	83.5	-	N/A	0K
28	U Nemotron-4 15B Unknown	53.4	-	46.0	-	-	N/A	0K
29	Kimi K2 Thinking🇨🇳 moonshotaiOpen	53.3	21.4	-	-	83.0	$0.60	262K
30	o4 Mini🇺🇸 OpenAI	53.2	24.8	-	97.8	81.7	$1.10	200K
31	Qwen2.5 72B Instruct🇨🇳 Alibaba QwenOpen	53.2	-	-	63.2	8.0	$0.12	33K
32	Qwen2.5 Coder 32B Instruct🇨🇳 Alibaba QwenOpen	53.1	-	91.1	-	-	$0.66	33K
33	DeepSeek V3.2🇨🇳 DeepSeekOpen	53.0	22.1	-	-	87.8	$0.26	164K
34	Kimi K2.5🇨🇳 moonshotaiOpen	52.0	27.9	-	-	92.2	$0.38	262K
35	GPT-4o (2024-05-13)🇺🇸 OpenAI	51.1	-	-	51.0	6.2	$5.00	128K
36	GPT-4 Turbo🇺🇸 OpenAI	51.0	-	90.0	23.0	1.0	$10.00	128K
37	GLM 4.6🇨🇳 z-aiOpen	50.8	3.8	-	-	-	$0.39	205K
38	GLM 4.7🇨🇳 z-aiOpen	50.5	2.4	-	-	83.3	$0.39	203K
39	GPT-5.1🇺🇸 OpenAI	49.6	31.0	-	-	88.6	$1.25	400K
40	Gemini 3 Flash Preview🇺🇸 Google DeepMind	49.1	35.6	-	-	92.8	$0.50	1.0M
41	Gemini 2.0 Flash🇺🇸 Google DeepMind	48.0	1.7	-	82.2	31.0	$0.10	1.0M
42	U Stable Beluga 2 Unknown	47.8	-	69.6	-	-	N/A	0K
43	Claude 3.7 Sonnet🇺🇸 Anthropic	47.7	4.1	-	91.2	57.7	$3.00	200K
44	Claude Sonnet 4.6🇺🇸 Anthropic	47.6	32.4	-	-	85.8	$3.00	1.0M
45	Gemini 1.5 Flash (May 2024)🇺🇸 Google DeepMind	47.4	0.1	82.4	25.1	3.8	N/A	0K
46	gpt-oss-120b🇺🇸 OpenAIOpen	46.9	-	-	-	88.9	$0.04	131K
47	Grok 3 Mini🇺🇸 xAI	46.6	5.9	-	90.9	77.8	$0.30	131K
48	GPT-3.5 Turbo (older v0613)🇺🇸 OpenAI	45.8	-	57.8	11.6	-	$1.00	4K
49	Mistral Large 2411🇫🇷 Mistral AIOpen	45.8	0.3	-	50.3	7.7	$2.00	131K
50	Claude Opus 4.5🇺🇸 Anthropic	45.4	20.7	-	-	86.1	$5.00	200K
51	GPT-5 Nano🇺🇸 OpenAI	45.3	8.3	-	95.2	81.1	$0.05	400K
52	R1🇨🇳 DeepSeekOpen	45.1	-	-	93.0	53.3	$0.70	64K
53	Claude Sonnet 4🇺🇸 Anthropic	44.6	4.1	-	84.4	71.1	$3.00	1.0M
54	GPT-4.1 Mini🇺🇸 OpenAI	44.5	4.5	-	87.3	44.7	$0.40	1.0M
55	Falcon-180B TIIOpen	44.4	-	54.4	-	-	N/A	0K
56	Qwen2.5 Coder 7B Instruct🇨🇳 Alibaba QwenOpen	44.4	-	86.7	-	-	$0.03	33K
57	GPT-4.1🇺🇸 OpenAI	43.3	5.5	-	83.0	38.3	$2.00	1.0M
58	GPT-5 Pro🇺🇸 OpenAI	43.3	-	-	-	-	$15.00	400K
59	GPT-4o-mini (2024-07-18)🇺🇸 OpenAI	43.2	-	91.3	52.6	6.8	$0.15	128K
60	Phi 4🇺🇸 MicrosoftOpen	43.2	-	-	64.9	13.7	$0.07	16K
61	Llama 2-13B🇺🇸 MetaOpen	42.5	-	36.9	3.3	-	N/A	0K
62	Claude 3.5 Sonnet🇺🇸 Anthropic	42.3	1.0	-	51.7	6.4	N/A	0K
63	Gemma 3 27B🇺🇸 Google DeepMindOpen	42.2	-	-	74.0	19.6	$0.08	131K
64	Gemma 3 27B (free)🇺🇸 Google DeepMindOpen	42.2	-	-	74.0	19.6	Free	131K
65	Claude Sonnet 4.5🇺🇸 Anthropic	42.1	15.2	-	97.7	77.8	$3.00	1.0M
66	Claude Opus 4🇺🇸 Anthropic	41.7	4.5	-	85.0	64.4	$15.00	200K
67	Mistral 7B V0.1🇫🇷 Mistral AIOpen	41.6	-	54.4	-	-	N/A	0K
68	o1-preview🇺🇸 OpenAI	41.5	-	-	81.7	31.0	N/A	0K
69	Claude Opus 4.1🇺🇸 Anthropic	41.3	7.2	-	-	68.9	$15.00	200K
70	Gemini 1.5 Pro (Feb 2024)🇺🇸 Google DeepMind	41.3	-	-	40.8	6.7	N/A	0K
71	Qwen2-72B🇨🇳 Alibaba QwenOpen	41.3	-	-	39.1	-	N/A	0K
72	Qwen2.5-Max🇨🇳 Alibaba QwenOpen	41.0	1.0	-	67.2	16.0	N/A	0K
73	U Baichuan 2-7B Unknown	40.3	-	24.6	-	-	N/A	0K
74	Gemini 2.5 Flash🇺🇸 Google DeepMind	40.0	4.8	-	-	73.0	$0.30	1.0M
75	Mistral Medium 3🇫🇷 Mistral AIOpen	40.0	0.3	-	81.6	32.1	$0.40	131K
76	GPT-4o-mini🇺🇸 OpenAI	39.6	-	91.3	52.6	6.8	$0.15	128K
77	Mistral Large 2407🇫🇷 Mistral AIOpen	39.1	-	-	44.8	8.4	$2.00	131K
78	Qwen2.5 Coder 1.5B Instruct🇨🇳 AlibabaOpen	38.8	-	65.8	-	-	N/A	0K
79	Grok 3🇺🇸 xAI	38.4	3.8	-	88.8	55.5	$3.00	131K
80	o3 Mini🇺🇸 OpenAI	38.4	12.4	-	96.5	76.9	$1.10	200K
81	Llama 3.1 405B🇺🇸 MetaOpen	38.0	-	-	49.8	9.6	N/A	0K
82	Llama 3.1 70B Instruct🇺🇸 MetaOpen	37.8	-	-	36.7	3.5	$0.40	131K
83	Gemini 2.0 Flash Thinking (Jan 2025)🇺🇸 Google DeepMind	37.7	-	-	-	57.7	N/A	0K
84	GPT-4o (2024-11-20)🇺🇸 OpenAI	37.7	0.3	-	53.3	6.3	$2.50	128K
85	Claude 2🇺🇸 Anthropic	37.2	-	-	11.7	2.4	N/A	0K
86	Claude 3.5 Haiku🇺🇸 Anthropic	37.2	0.3	-	46.4	4.2	$0.80	200K
87	Mistral Nemo🇫🇷 Mistral AIOpen	37.2	-	84.2	10.8	-	$0.02	131K
88	Claude Haiku 4.5🇺🇸 Anthropic	37.1	5.9	-	96.4	66.6	$1.00	200K
89	Llama 3.2 90B🇺🇸 MetaOpen	36.1	-	-	39.4	2.5	N/A	0K
90	Gemma 2 9B🇺🇸 Google DeepMindOpen	36.0	-	84.9	21.0	0.5	$0.03	8K
91	GPT-4.5🇺🇸 OpenAI	35.9	-	-	78.6	37.7	N/A	0K
92	GPT-4o (2024-08-06)🇺🇸 OpenAI	35.6	0.3	-	53.3	6.3	$2.50	128K
93	GPT-4.1 Nano🇺🇸 OpenAI	35.2	1.0	-	70.0	28.8	$0.10	1.0M
94	LLaMA-13B🇺🇸 MetaOpen	34.9	-	20.6	-	-	N/A	0K
95	o1-mini🇺🇸 OpenAI	34.9	1.7	-	89.2	46.9	N/A	0K
96	Claude 3 Opus🇺🇸 Anthropic	33.7	-	-	37.5	4.6	N/A	0K
97	Grok-2 (Dec 2024)🇺🇸 xAI	33.2	0.7	-	63.5	11.4	N/A	0K
98	Gemma 2 27B🇺🇸 Google DeepMindOpen	32.9	-	-	27.9	1.3	$0.65	8K
99	Llama 3 70B Instruct🇺🇸 MetaOpen	32.4	-	-	22.6	4.2	$0.51	8K
100	U MPT-30B Unknown	31.7	-	34.4	-	-	N/A	0K
101	U Yi 6B UnknownOpen	31.4	-	44.9	5.2	-	N/A	0K
102	Llama 3 8B Instruct🇺🇸 MetaOpen	30.8	-	-	6.1	0.7	$0.03	8K
103	Mistral Large🇫🇷 Mistral AIOpen	30.0	0.3	-	24.5	1.9	$2.00	128K
104	Gemma 2B🇺🇸 Google DeepMindOpen	29.1	-	17.7	-	-	N/A	0K
105	Llama 3.3 70B Instruct (free)🇺🇸 MetaOpen	29.1	-	-	41.6	5.0	Free	66K
106	Claude 3 Haiku🇺🇸 Anthropic	28.7	-	-	14.9	1.7	$0.25	200K
107	Claude 3 Sonnet🇺🇸 Anthropic	28.3	-	-	18.2	2.4	N/A	0K
108	Llama 4 Maverick🇺🇸 MetaOpen	28.0	0.7	-	73.0	20.5	$0.15	1.0M
109	Llama 3.1 8B Instruct🇺🇸 MetaOpen	27.4	-	82.4	22.9	2.4	$0.02	16K
110	DeepSeek Coder 33B🇨🇳 DeepSeekOpen	25.4	-	35.4	-	-	N/A	0K
111	U StarCoder 2 15B UnknownOpen	24.3	-	57.7	-	-	N/A	0K
112	U Baichuan1-7B Unknown	23.7	-	9.2	-	-	N/A	0K
113	Mixtral 8x22B Instruct🇫🇷 Mistral AIOpen	23.5	-	-	24.2	-	$2.00	66K
114	Gemini 1.0 Pro🇺🇸 Google DeepMind	21.1	-	-	11.2	1.0	N/A	0K
115	Claude 2.1🇺🇸 Anthropic	21.0	-	-	-	1.9	N/A	0K
116	U INTELLECT-1 Unknown	20.2	-	38.6	-	-	N/A	0K
117	Llama 4 Scout🇺🇸 MetaOpen	18.9	0.1	-	62.3	7.7	$0.08	328K
118	DeepSeek Coder 6.7B🇨🇳 DeepSeekOpen	16.7	-	21.3	-	-	N/A	0K
119	U Magistral Small 1.1 Unknown	16.6	-	-	-	29.9	N/A	0K
120	DeepSeek Coder 1.3B🇨🇳 DeepSeekOpen	3.2	-	4.4	-	-	N/A	0K

90+ Gold 80-89 70-79 60-69 <60Scores in % unless noted. Avg = unweighted mean across tested benchmarks.

About this category

Models ranked by mathematical ability across MATH-500, GSM8K, FrontierMath, and competition-level problems. Scores reflect arithmetic, algebra, geometry, combinatorics, and proof-based reasoning.

Related categories

Best AI Models for Reasoning

AI models ranked by reasoning benchmarks. Compare GPQA Diamond, ARC-AGI, BBH, and other reasoning tests across all providers.

Best AI Models for Coding

AI models ranked by coding benchmarks. Compare HumanEval+, SWE-bench Verified, Aider Polyglot, and more across all providers.

Best AI Models for Knowledge

AI models ranked by knowledge benchmarks. Compare MMLU-Pro, GPQA Diamond, SimpleQA, and other knowledge tests.

Frequently asked questions

Which AI model is best at math?

Math rankings are updated live. Check the leaderboard above for the current leader on MATH-500, GSM8K, and competition-level math benchmarks.

What is MATH-500?

MATH-500 is a curated subset of 500 competition-level math problems spanning multiple difficulty levels and topics including algebra, number theory, and geometry.

Can AI solve competition math problems?

Top models now score above 95% on MATH-500 and are approaching human-competitive levels on AIME and Olympiad-style problems.

Back to all models