#	Model	Score	Price
1	GPT-5· OpenAI	88.0	$1.25
2	GPT-5 Chat· OpenAI	88.0	$1.25
3	o3 Pro· OpenAI	84.9	$20.00
4	Gemini 2.5 Pro· Google DeepMind	83.1	$1.25
5	Gemini 2.5 Pro Preview 06-05· Google DeepMind	83.1	$1.25
6	o3· OpenAI	81.3	$2.00
7	Grok 4· xAI	79.6	$3.00
8	Gemini 2.5 Pro Preview 05-06· Google DeepMind	76.9	$1.25
9	DeepSeek V3.2· DeepSeek	74.2	$0.26
10	DeepSeek V3.2 Exp· DeepSeek	74.2	$0.27
11	Claude Opus 4· Anthropic	72.0	$15.00
12	o4 Mini· OpenAI	72.0	$1.10
13	o4 Mini High· OpenAI	72.0	$1.10
14	R1 0528· DeepSeek	71.4	$0.50
15	Claude 3.7 Sonnet· Anthropic	64.9	$3.00
16	o1· OpenAI	61.7	$15.00
17	Claude Sonnet 4· Anthropic	61.3	$3.00
18	o3 Mini· OpenAI	60.4	$1.10
19	o3 Mini High· OpenAI	60.4	$1.10
20	Qwen3 235B A22B· Alibaba Qwen	59.6	$0.46
21	Qwen3 235B A22B Instruct 2507· Alibaba Qwen	59.6	$0.07
22	Kimi K2 0711· moonshotai	59.1	$0.57
23	R1· DeepSeek	56.9	$0.70
24	DeepSeek V3 0324· DeepSeek	55.1	$0.20
25	Grok 3· xAI	53.3	$3.00
26	Grok 3 Beta· xAI	53.3	$3.00
27	GPT-4.1· OpenAI	52.4	$2.00
28	Claude 3.5 Sonnet· Anthropic	51.6	—
29	Grok 3 Mini· xAI	49.3	$0.30
30	Grok 3 Mini Beta· xAI	49.3	$0.30
31	DeepSeek V3· DeepSeek	48.4	$0.32
32	Gemini 2.5 Flash· Google DeepMind	47.1	$0.30
33	GPT-4.5· OpenAI	44.9	—
34	gpt-oss-120b· OpenAI	41.8	$0.04
35	gpt-oss-120b (free)· OpenAI	41.8	$0.00
36	Qwen3 32B· Alibaba Qwen	40.0	$0.08
37	Gemini 2.0 Flash· Google DeepMind	38.2	$0.10
38	Gemini 2.0 Pro· Google DeepMind	35.6	—
39	o1-mini· OpenAI	32.9	—
40	GPT-4.1 Mini· OpenAI	32.4	$0.40
41	Claude 3.5 Haiku· Anthropic	28.0	$0.80
42	GPT-4o (2024-08-06)· OpenAI	23.1	$2.50
43	GPT-4o (2024-11-20)· OpenAI	23.1	$2.50
44	Qwen2.5-Max· Alibaba Qwen	21.8	—
45	QwQ 32B· Alibaba Qwen	20.9	$0.15
46	Gemini 2.0 Flash Thinking (Jan 2025)· Google DeepMind	18.2	—
47	Qwen2.5 Coder 32B Instruct· Alibaba Qwen	16.4	$0.66
48	Llama 4 Maverick· Meta	15.6	$0.15
49	GPT-4.1 Nano· OpenAI	8.9	$0.10
50	Gemma 3 27B· Google DeepMind	4.9	$0.08
51	Gemma 3 27B (free)· Google DeepMind	4.9	$0.00
52	GPT-4o-mini· OpenAI	3.6	$0.15
53	GPT-4o-mini (2024-07-18)· OpenAI	3.6	$0.15

Frequently asked

Pulled from the Aider polyglot dataset · updated daily

What does Aider polyglot measure?

Aider polyglot is a code benchmark in the BenchGecko catalog. 53 AI models have been tested on it. Scores range from 3.6 to 88.0 out of 100.

Which model leads on Aider polyglot?

GPT-5 from OpenAI leads Aider polyglot with a score of 88.0. The median score across 53 tested models is 52.4.

Is Aider polyglot saturated?

No · the top score is 88.0 out of 100 (88%). There is still meaningful room for improvement on Aider polyglot.

Does Aider polyglot predict performance on other benchmarks?

Yes · Aider polyglot scores correlate 0.96 with OpenCompass · MMLU-Pro across 8 shared models. Models that do well on Aider polyglot tend to do well on OpenCompass · MMLU-Pro.

How often is Aider polyglot data refreshed?

BenchGecko pulls updates daily. New model scores on Aider polyglot appear as soon as they are published by Epoch AI or the model provider.