Home/Comparar/Claude 3.5 Sonnet vs o1

Claude 3.5 Sonnet vs o1

Lado a lado. Cada métrica. Cada benchmark.

Anthropic

42.3

puntuación promedio

1/11

benchmarks

o1Ganador

OpenAI

56.4

puntuación promedio

9/11

benchmarks

Puntuaciones de benchmark

11 benchmarks · Claude 3.5 Sonnet: 1, o1: 9

Benchmark	Categoría	Claude 3.5 Sonnet	o1
Aider — Code Editing	coding	84.2	84.2
Aider polyglot	coding	51.6	61.7
CadEval	coding	48.0	56.0
FrontierMath-2025-02-28-Private	math	1.0	9.3
GeoBench	knowledge	62.0	80.0
GPQA diamond	knowledge	38.7	69.0
Lech Mazur Writing	knowledge	80.3	70.2
MATH level 5	math	51.7	94.7
OTIS Mock AIME 2024-2025	math	6.4	73.3
SimpleBench	reasoning	13.0	28.1
WeirdML	coding	31.0	43.8