What does Aider · Code Editing measure?

Aider · Code Editing is a knowledge benchmark in the BenchGecko catalog. 27 AI models have been tested on it. Scores range from 14.3 to 84.2 out of 100.

Which model leads on Aider · Code Editing?

Claude 3.5 Sonnet from Anthropic leads Aider · Code Editing with a score of 84.2. The median score across 27 tested models is 60.2.

Is Aider · Code Editing saturated?

No · the top score is 84.2 out of 100 (84%). There is still meaningful room for improvement on Aider · Code Editing.

Does Aider · Code Editing predict performance on other benchmarks?

Yes · Aider · Code Editing scores correlate 0.94 with The Agent Company across 6 shared models. Models that do well on Aider · Code Editing tend to do well on The Agent Company.

How often is Aider · Code Editing data refreshed?

BenchGecko pulls updates daily. New model scores on Aider · Code Editing appear as soon as they are published by Epoch AI or the model provider.

Benchmark · KnowledgeCompetitive

Aider · Code Editing

Name: Aider · Code Editing Benchmark
Creator: BenchGecko
License: https://creativecommons.org/licenses/by/4.0/

Updated 2025-04-15

Models tested

Top score

84.2

Claude 3.5 Sonnet

Median

60.2

min 14.3

Top-5 spread

σ 5.4

wide open

The Frontier

Best score over time · one chart, every benchmark

Chart type

Only 15 models have been tested on Aider · Code Editing · not enough history to compute a frontier yet.

Pink dots = frontier records · 1 totalClick to open model page

Full rankings

27 models tested · sorted by score

#	Model	Score	Price
1	Claude 3.5 Sonnet· Anthropic	84.2	—
2	o1· OpenAI	84.2	$15.00
3	o1-preview· OpenAI	79.7	—
4	GPT-4o (2024-05-13)· OpenAI	72.9	$5.00
5	GPT-4o (2024-08-06)· OpenAI	71.4	$2.50
6	GPT-4o (2024-11-20)· OpenAI	71.4	$2.50
7	Qwen2.5 Coder 32B Instruct· Alibaba Qwen	71.4	$0.66
8	o1-mini· OpenAI	70.7	—
9	Qwen2.5 Coder 14B Instruct· Alibaba	69.2	—
10	GPT-4 (older v0314)· OpenAI	66.2	$30.00
11	GPT-4 Turbo (older v1106)· OpenAI	65.4	$10.00
12	Mistral Large 2411· Mistral AI	65.4	$2.00
13	Qwen2.5 72B Instruct· Alibaba Qwen	65.4	$0.36
14	Mistral Large· Mistral AI	60.2	$2.00
15	Llama 3.3 70B Instruct· Meta	59.4	$0.10
16	Grok-2 (Dec 2024)· xAI	58.6	—
17	Llama 3.1 70B Instruct· Meta	58.6	$0.40
18	Qwen2.5 Coder 7B Instruct· Alibaba Qwen	57.9	$0.03
19	Gemini 1.5 Pro (Feb 2024)· Google DeepMind	57.1	—
20	GPT-4o-mini· OpenAI	55.6	$0.15
21	Qwen2-72B· Alibaba Qwen	55.6	—
22	GPT-3.5 Turbo (older v0613)· OpenAI	50.4	$1.00
23	WizardLM-2 8x22B· Microsoft	44.4	$0.62
24	Command R+ (08-2024)· Cohere	38.3	$2.50
25	Llama 3.1 8B Instruct· Meta	37.6	$0.02
26	Qwen2.5 Coder 1.5B Instruct· Alibaba	31.6	—
27	Qwen2.5 Coder 0.5B Instruct· Alibaba	14.3	—