Home/Comparar/Claude 3.5 Sonnet vs gpt-oss-120b

Claude 3.5 Sonnet vs gpt-oss-120b

Lado a lado. Cada métrica. Cada benchmark.

Anthropic

42.3

puntuación promedio

6/13

benchmarks

OpenAI

46.9

puntuación promedio

7/13

benchmarks

Puntuaciones de benchmark

13 benchmarks · Claude 3.5 Sonnet: 6, gpt-oss-120b: 7

Benchmark	Categoría	Claude 3.5 Sonnet	gpt-oss-120b
Aider polyglot	coding	51.6	41.8
Chatbot Arena Elo — Overall	arena	1371.4	1353.8
Fortress	safety	13.0	8.2
GPQA diamond	knowledge	38.7	67.7
HELM — GPQA	knowledge	56.5	68.4
HELM — IFEval	language	85.6	83.6
HELM — MMLU-Pro	knowledge	77.7	79.5
HELM — Omni-MATH	math	27.6	68.8
HELM — WildBench	reasoning	79.2	84.5
Lech Mazur Writing	knowledge	80.3	77.3
OTIS Mock AIME 2024-2025	math	6.4	88.9
SimpleBench	reasoning	13.0	6.5
WeirdML	coding	31.0	48.2