Which model leads on WeirdML?

GPT-5.3-Codex from OpenAI leads WeirdML with a score of 79.3. The median score across 70 tested models is 40.2.

Is WeirdML saturated?

No · the top score is 79.3 out of 100 (79%). There is still meaningful room for improvement on WeirdML.

Does WeirdML predict performance on other benchmarks?

Yes · WeirdML scores correlate 0.93 with BBH across 5 shared models. Models that do well on WeirdML tend to do well on BBH.

How often is WeirdML data refreshed?

BenchGecko pulls updates daily. New model scores on WeirdML appear as soon as they are published by Epoch AI or the model provider.

Benchmark · CodeCompetitive

WeirdML

Name: WeirdML Benchmark
Creator: BenchGecko
License: https://creativecommons.org/licenses/by/4.0/

WeirdML · tests models on unusual and adversarial machine learning tasks that require creative problem-solving beyond standard patterns.

Updated 2026-03-05

Models tested

Top score

79.3

GPT-5.3-Codex

Median

40.2

min 1.7

Top-5 spread

σ 3.6

Competitive

The Frontier

Best score over time · one chart, every benchmark

Chart type

Frontier on WeirdML rose from 21.4 to 79.3 in 20 months · +57.9 points · latest leader GPT-5.3-Codex from OpenAI.

Pink dots = frontier records · 12 totalClick to open model page

Full rankings

70 models tested · sorted by score

#	Model	Score	Price
1	GPT-5.3-Codex· OpenAI	79.3	$1.75
2	Claude Opus 4.6· Anthropic	77.9	$5.00
3	GPT-5.2· OpenAI	72.2	$1.75
4	Gemini 3.1 Pro Preview· Google DeepMind	72.1	$2.00
5	Gemini 3 Pro· Google DeepMind	69.9	—
6	Claude Sonnet 4.6· Anthropic	66.1	$3.00
7	Claude Opus 4.5· Anthropic	63.7	$5.00
8	Gemini 3 Flash Preview· Google DeepMind	61.6	$0.50
9	GPT-5.1· OpenAI	60.8	$1.25
10	GPT-5· OpenAI	60.7	$1.25
11	GPT-5 Pro· OpenAI	60.4	$15.00
12	o3 Pro· OpenAI	58.2	$20.00
13	GPT-5.4· OpenAI	57.4	$2.50
14	Gemini 2.5 Pro· Google DeepMind	54.0	$1.25
15	GPT-5 Mini· OpenAI	52.7	$0.25
16	o4 Mini· OpenAI	52.6	$1.10
17	o3· OpenAI	52.4	$2.00
18	GLM 5· z-ai	48.2	$0.60
19	gpt-oss-120b· OpenAI	48.2	$0.04
20	Claude Sonnet 4.5· Anthropic	47.7	$3.00
21	o1-preview· OpenAI	47.6	—
22	Claude Sonnet 4· Anthropic	46.1	$3.00
23	Grok 4· xAI	45.7	$3.00
24	Kimi K2.5· moonshotai	45.6	$0.44
25	Claude Haiku 4.5· Anthropic	45.4	$1.00
26	o1· OpenAI	43.8	$15.00
27	o3 Mini· OpenAI	43.7	$1.10
28	Claude Opus 4· Anthropic	43.4	$15.00
29	Grok 4 Fast· xAI	42.9	$0.20
30	Kimi K2 Thinking· moonshotai	42.8	$0.60
31	Claude Opus 4.1· Anthropic	42.8	$15.00
32	Grok 3 Mini· xAI	42.6	$0.30
33	R1 0528· DeepSeek	41.6	$0.50
34	Qwen3 235B A22B Thinking 2507· Alibaba Qwen	41.0	$0.15
35	Gemini 2.5 Flash· Google DeepMind	41.0	$0.30
36	DeepSeek V3.2 Exp· DeepSeek	39.5	$0.27
37	GPT-4.5· OpenAI	39.4	—
38	Kimi K2 0711· moonshotai	39.4	$0.57
39	GPT-4.1· OpenAI	39.0	$2.00
40	Qwen3 235B A22B Instruct 2507· Alibaba Qwen	38.7	$0.07
41	DeepSeek V3.1· DeepSeek	38.4	$0.15
42	GPT-5 Nano· OpenAI	38.1	$0.05
43	GPT-4.1 Mini· OpenAI	37.6	$0.40
44	Qwen3 235B A22B· Alibaba Qwen	37.3	$0.46
45	Grok 3· xAI	37.2	$3.00
46	R1· DeepSeek	36.5	$0.70
47	o1-mini· OpenAI	36.3	—
48	DeepSeek V3· DeepSeek	36.1	$0.32
49	Claude 3.5 Sonnet· Anthropic	31.0	—
50	Claude 3.5 Haiku· Anthropic	30.7	$0.80
51	Gemini 2.0 Flash· Google DeepMind	25.8	$0.10
52	GPT-4o (2024-11-20)· OpenAI	25.1	$2.50
53	Gemini 1.5 Flash (May 2024)· Google DeepMind	24.9	—
54	Llama 4 Maverick· Meta	24.5	$0.15
55	Claude 3 Opus· Anthropic	23.2	—
56	Grok-2 (Dec 2024)· xAI	22.2	—
57	Gemini 1.5 Pro (Feb 2024)· Google DeepMind	22.2	—
58	Llama 3.1 405B· Meta	21.4	—
59	GPT-4.1 Nano· OpenAI	19.0	$0.10
60	Llama 3.3 70B Instruct (free)· Meta	14.4	$0.00
61	GPT-4 Turbo· OpenAI	12.4	$10.00
62	GPT-4o-mini· OpenAI	11.8	$0.15
63	GPT-4o-mini (2024-07-18)· OpenAI	11.8	$0.15
64	Claude 3 Sonnet· Anthropic	10.2	—
65	Claude 3 Haiku· Anthropic	9.8	$0.25
66	Llama 3.1 70B Instruct· Meta	9.0	$0.40
67	Claude 2.1· Anthropic	7.1	—
68	GPT-3.5 Turbo (older v0613)· OpenAI	3.5	$1.00
69	Mixtral 8x22B Instruct· Mistral AI	3.2	$2.00
70	Llama 3.1 8B Instruct· Meta	1.7	$0.02