LIVETracking 971 AI models from 268 providers.

Models971·Providers268·Benchmarks128·Companies71·Agents165·TopQwen3 VL 235B A22B Instruct · 1415.8%·Updated4h·Data Points2,902·MCP Servers4,923

Home/Comparar/o3 vs Grok 4

o3 vs Grok 4

Lado a lado. Cada métrica. Cada benchmark.

o3Ganador

OpenAI

55.2

puntuación promedio

9/19

benchmarks

xAI

54.8

puntuación promedio

9/19

benchmarks

Tipo	o3	Grok 4
Provider	OpenAI	xAI
puntuación promedio	55.2	54.8
Precio de entrada	$2.00	$3.00
Precio de salida	$8.00	$15.00
Ventana de contexto	200K tokens (~100 books)	256K tokens (~128 books)
Publicado el	2025-04-16	2025-07-09
Código abierto	Proprietary	Proprietary

Puntuaciones de benchmark

19 benchmarks · o3: 9, Grok 4: 9

Benchmark	Categoría	o3	Grok 4
Aider polyglot	coding	81.3	79.6
ARC-AGI	reasoning	60.8	66.7
ARC-AGI-2	reasoning	6.5	16.0
DeepResearch Bench	knowledge	46.6	47.9
Fiction.LiveBench	knowledge	88.9	94.4
FrontierMath-2025-02-28-Private	math	18.7	19.7
FrontierMath-Tier-4-2025-07-01-Private	math	2.1	2.1
GeoBench	knowledge	74.0	45.0
GPQA diamond	knowledge	75.8	82.7
HELM — GPQA	knowledge	75.3	72.6
HELM — IFEval	language	86.9	94.9
HELM — MMLU-Pro	knowledge	85.9	85.1
HELM — Omni-MATH	math	71.4	60.3
HELM — WildBench	reasoning	86.1	79.7
Lech Mazur Writing	knowledge	83.9	80.7
OTIS Mock AIME 2024-2025	math	83.9	84.0
SimpleBench	reasoning	43.7	52.6
SimpleQA Verified	knowledge	53.0	47.9
WeirdML	coding	52.4	45.7

More Comparisons

Claude Mythos Preview vs Claude Opus 4.6 Claude Mythos Preview vs GPT-5.4 Claude Mythos Preview vs Gemini 3.1 Pro Preview Claude Mythos Preview vs o3 Pro Claude Opus 4 vs GPT-5 Claude Opus 4.5 vs GPT-5.2 Claude Opus 4.6 vs GPT-5.4 Claude Opus 4.6 vs o3 Pro