Home/Comparar/o3 vs Gemini 2.5 Pro

o3 vs Gemini 2.5 Pro

Lado a lado. Cada métrica. Cada benchmark.

OpenAI

55.2

puntuación promedio

15/28

benchmarks

Google DeepMind

56.2

puntuación promedio

13/28

benchmarks

Puntuaciones de benchmark

28 benchmarks · o3: 15, Gemini 2.5 Pro: 13

Benchmark	Categoría	o3	Gemini 2.5 Pro
Aider polyglot	coding	81.3	83.1
ARC-AGI	reasoning	60.8	41.0
ARC-AGI-2	reasoning	6.5	4.9
Artificial Analysis — Agentic Index	speed	36.1	32.7
Artificial Analysis — Coding Index	speed	38.4	31.9
Artificial Analysis — Quality Index	speed	38.4	34.6
CadEval	coding	74.0	64.0
DeepResearch Bench	knowledge	46.6	49.7
Fiction.LiveBench	knowledge	88.9	91.7
FrontierMath-2025-02-28-Private	math	18.7	14.1
FrontierMath-Tier-4-2025-07-01-Private	math	2.1	4.2
GeoBench	knowledge	74.0	81.0
GPQA diamond	knowledge	75.8	80.4
GSO-Bench	coding	8.8	3.9
HELM — GPQA	knowledge	75.3	74.9
HELM — IFEval	language	86.9	84.0
HELM — MMLU-Pro	knowledge	85.9	86.3
HELM — Omni-MATH	math	71.4	41.6
HELM — WildBench	reasoning	86.1	85.7
HLE	knowledge	16.3	17.7
Lech Mazur Writing	knowledge	83.9	86.0
MATH level 5	math	97.8	95.6
OTIS Mock AIME 2024-2025	math	83.9	84.7
SimpleBench	reasoning	43.7	54.9
SimpleQA Verified	knowledge	53.0	56.0
SWE-Bench verified	coding	62.3	57.6
VPCT	knowledge	28.0	19.6
WeirdML	coding	52.4	54.0