Agents/SWE-agent 1.0

SWE-agent 1.0

by SWE-agent

33.8

best score

33.8%

Best Score

test

Best Leaderboard

Models Used

Yes

Open Source

Score History

Entry	Leaderboard	Score	$/instance	Model	Date
mini-SWE-agent + Gemini 3 Pro	verified	69.6%	$0.96	gemini-3-pro-preview	2026-02-26
mini-SWE-agent + GPT-5-2 Codex	verified	72.8%	$0.45	gpt-5-2-codex	2026-02-19
mini-SWE-agent + Claude 4.5 Opus (high reasoning)	verified	76.8%	$0.75	claude-4-5-opus	2026-02-17
mini-SWE-agent + Gemini 3 Flash (high reasoning)	verified	75.8%	$0.36	gemini-3-flash-preview	2026-02-17
mini-SWE-agent + MiniMax M2.5 (high reasoning)	verified	75.8%	$0.07	minimax-m2.5	2026-02-17
mini-SWE-agent + Claude Opus 4.6	verified	75.6%	$0.55	claude-opus-4-6	2026-02-17
mini-SWE-agent + GLM-5 (high reasoning)	verified	72.8%	$0.53	glm-5	2026-02-17
mini-SWE-agent + GPT-5-2 (high reasoning)	verified	72.8%	$0.47	gpt-5-2	2026-02-17
mini-SWE-agent + Claude 4.5 Sonnet (high reasoning)	verified	71.4%	$0.66	claude-sonnet-4-5-20250929	2026-02-17
mini-SWE-agent + Kimi K2.5 (high reasoning)	verified	70.8%	$0.15	kimi-k2.5	2026-02-17
mini-SWE-agent + DeepSeek V3.2 (high reasoning)	verified	70.0%	$0.45	deepseek-v3.2	2026-02-17
mini-SWE-agent + Claude 4.5 Haiku (high reasoning)	verified	66.6%	$0.33	claude-haiku-4-5-20251001	2026-02-17
mini-SWE-agent + GPT-5 Mini	verified	56.2%	$0.05	gpt-5-mini-2025-08-07	2026-02-17
mini-SWE-agent + GPT-5.2 (2025-12-11) (high reasoning)	verified	71.8%	$0.52	gpt-5.2-2025-12-11	2025-12-11
mini-SWE-agent + GPT-5.2 (2025-12-11)	verified	69.0%	$0.27	gpt-5.2-2025-12-11	2025-12-11
mini-SWE-agent + Kimi K2 Thinking	verified	63.4%	$0.44	Kimi-K2-Thinking	2025-12-10
mini-SWE-agent + Devstral small (2512)	verified	56.4%	-	devstral-small-2512	2025-12-09
mini-SWE-agent + Devstral (2512)	verified	53.8%	-	devstral-2512	2025-12-09
mini-SWE-agent + DeepSeek V3.2 Reasoner	verified	60.0%	$0.03	deepseek-v3.2-reasoner	2025-12-01
mini-SWE-agent + GLM-4.6 (T=1)	verified	55.4%	$0.10	glm-4.6	2025-12-01
mini-SWE-agent + Claude 4.5 Opus medium (20251101)	verified	74.4%	$0.72	claude-opus-4-5-20251101	2025-11-24
mini-SWE-agent + GPT-5.1-codex (medium reasoning)	verified	66.0%	$0.59	gpt-5.1-codex	2025-11-24
mini-SWE-agent + Minimax M2	verified	61.0%	$0.43	minimax-m2	2025-11-24
mini-SWE-agent + GPT-5.1 (2025-11-13) (medium reasoning)	verified	66.0%	$0.31	gpt-5.1-2025-11-13	2025-11-20
mini-SWE-agent + Gemini 3 Pro Preview (2025-11-18)	verified	74.2%	$0.46	gemini-3-pro-preview	2025-11-18
mini-SWE-agent + Claude 4.5 Sonnet (20250929)	verified	70.6%	$0.56	claude-sonnet-4-5-20250929	2025-09-29
mini-SWE-agent + GLM-4.5 (2025-08-22)	verified	54.2%	$0.30	GLM-4.5	2025-08-22
mini-SWE-agent + GPT-5 (2025-08-07) (medium reasoning)	verified	65.0%	$0.28	gpt-5-2025-08-07	2025-08-07
mini-SWE-agent + GPT-5 mini (2025-08-07) (medium reasoning)	verified	59.8%	$0.04	gpt-5-mini-2025-08-07	2025-08-07
mini-SWE-agent + Kimi K2 Instruct	verified	43.8%	$0.53	Kimi-K2-Instruct	2025-08-07
mini-SWE-agent + GPT-5 nano (2025-08-07) (medium reasoning)	verified	34.8%	$0.04	gpt-5-nano-2025-08-07	2025-08-07
mini-SWE-agent + gpt-oss-120b	verified	26.0%	$0.06	gpt-oss-120b	2025-08-07
mini-SWE-agent + Qwen2.5-Coder 32B Instruct	verified	9.0%	$0.07	Qwen2.5-Coder-32B-Instruct	2025-08-03
mini-SWE-agent + Claude 4 Opus (20250514)	verified	67.6%	$1.13	claude-4-opus-20250514	2025-08-02
mini-SWE-agent + Qwen3-Coder 480B/A35B Instruct	verified	55.4%	$0.25	Qwen3-Coder-480B-A35B-Instruct	2025-08-02
mini-SWE-agent + Claude 4 Sonnet (20250514)	verified	64.9%	$0.37	claude-4-sonnet-20250514	2025-07-26
mini-SWE-agent + o3 (2025-04-16)	verified	58.4%	$0.33	o3-20250416	2025-07-26
mini-SWE-agent + Gemini 2.5 Pro (2025-05-06)	verified	53.6%	$0.29	gemini-2.5-pro	2025-07-26
mini-SWE-agent + o4-mini (2025-04-16)	verified	45.0%	$0.21	o4-mini-20250416	2025-07-26
mini-SWE-agent + GPT-4.1 (2025-04-14)	verified	39.6%	$0.15	gpt-4.1-20250414	2025-07-26
mini-SWE-agent + Gemini 2.5 Flash (2025-04-17)	verified	28.7%	$0.13	gemini-2.5-flash	2025-07-26
mini-SWE-agent + Gemini 2.0 flash	verified	13.5%	-	gemini-2.0-flash	2025-07-26
SWE-agent + DevStral Small 2507	verified	38.0%	-	devstral-small-2507	2025-07-25
mini-SWE-agent + Claude 3.7 Sonnet (20250219)	verified	52.8%	$0.35	claude-3-7-sonnet-20250219	2025-07-20
mini-SWE-agent + GPT-4.1-mini (2025-04-14)	verified	23.9%	$0.44	gpt-4.1-mini-20250414	2025-07-20
mini-SWE-agent + GPT-4o (2024-11-20)	verified	21.6%	$1.53	gpt-4o-20241120	2025-07-20
mini-SWE-agent + Llama 4 Maverick Instruct	verified	21.0%	$0.31	llama-4-maverick-instruct	2025-07-20
mini-SWE-agent + Llama 4 Scout Instruct	verified	9.1%	$0.12	llama-4-scout-instruct	2025-07-20
SWE-agent + Claude 4 Sonnet	lite	56.7%	-	claude-4-sonnet-20250514	2025-05-26
SWE-agent + Claude 4 Sonnet	verified	66.6%	-	claude-4-sonnet-20250514	2025-05-22
SWE-agent + SWE-agent-LM-32B	verified	40.2%	-	Qwen 2.5	2025-05-11
SWE-agent 1.0 (Claude 3.7 Sonnet)	test	33.8%	-	claude-3-7-sonnet-20250219	2025-02-27
SWE-agent + Claude 3.7 Sonnet	lite	48.0%	-	claude-3-7-sonnet-20250219	2025-02-26
SWE-agent + Claude 3.7 Sonnet w/ Review Heavy	verified	62.4%	-	claude-3-7-sonnet-20250219	2025-02-25
SWE-agent Multimodal + GPT 4o (2024-08-06)	multimodal	12.2%	-	-	2024-10-06
SWE-agent + Claude Sonnet 3.5	multimodal	12.2%	-	-	2024-10-06
SWE-agent JavaScript + Claude Sonnet 3.5	multimodal	12.0%	-	-	2024-10-06
SWE-agent + GPT 4o (2024-08-06)	multimodal	12.0%	-	-	2024-10-06
SWE-agent Multimodal + Claude 3.5 Sonnet	multimodal	11.4%	-	claude-3-5-sonnet-20241022	2024-10-06
SWE-agent JavaScript + GPT 4o (2024-08-06)	multimodal	9.3%	-	-	2024-10-06
SWE-agent + GPT 4o (2024-05-13)	test	12.0%	-	gpt-4o-2024-05-13	2024-07-28
SWE-agent + GPT 4o (2024-05-13)	verified	23.2%	-	gpt-4o-2024-05-13	2024-07-28
SWE-agent + GPT 4o (2024-05-13)	lite	18.3%	-	gpt-4o-2024-05-13	2024-07-28
SWE-agent + Claude 3.5 Sonnet	test	18.1%	-	claude-3-5-sonnet-20241022	2024-06-20
SWE-agent + Claude 3.5 Sonnet	verified	33.6%	-	claude-3-5-sonnet-20241022	2024-06-20
SWE-agent + Claude 3.5 Sonnet	lite	23.0%	-	claude-3-5-sonnet-20241022	2024-06-20
SWE-agent + GPT 4 (1106)	test	12.5%	-	gpt-4-1106-preview	2024-04-02
SWE-agent + Claude 3 Opus	test	10.5%	-	claude-3-opus-20240229	2024-04-02
SWE-agent + GPT 4 (1106)	verified	22.4%	-	gpt-4-1106-preview	2024-04-02
SWE-agent + Claude 3 Opus	verified	15.8%	-	claude-3-opus-20240229	2024-04-02
SWE-agent + GPT 4 (1106)	lite	18.0%	-	gpt-4-1106-preview	2024-04-02
SWE-agent + Claude 3 Opus	lite	11.7%	-	-	2024-04-02
RAG + SWE-Llama 13B	test	0.7%	-	-	2023-10-10
RAG + SWE-Llama 7B	test	0.7%	-	SWE-Llama	2023-10-10
RAG + SWE-Llama 7B	verified	1.4%	-	SWE-Llama	2023-10-10
RAG + SWE-Llama 13B	verified	1.2%	-	-	2023-10-10
RAG + SWE-Llama 7B	lite	1.3%	-	SWE-Llama	2023-10-10
RAG + SWE-Llama 13B	lite	1.0%	-	-	2023-10-10

Visit Website

Related Agents