Home/Comparar/GPT-4.1 vs gpt-oss-120b

GPT-4.1 vs gpt-oss-120b

Lado a lado. Cada métrica. Cada benchmark.

OpenAI

43.3

puntuación promedio

7/12

benchmarks

OpenAI

46.9

puntuación promedio

5/12

benchmarks

Puntuaciones de benchmark

12 benchmarks · GPT-4.1: 7, gpt-oss-120b: 5

Benchmark	Categoría	GPT-4.1	gpt-oss-120b
Aider polyglot	coding	52.4	41.8
Fiction.LiveBench	knowledge	63.9	44.4
GPQA diamond	knowledge	55.9	67.7
HELM — GPQA	knowledge	65.9	68.4
HELM — IFEval	language	83.8	83.6
HELM — MMLU-Pro	knowledge	81.1	79.5
HELM — Omni-MATH	math	47.1	68.8
HELM — WildBench	reasoning	85.4	84.5
OTIS Mock AIME 2024-2025	math	38.3	88.9
SimpleBench	reasoning	12.4	6.5
SWE-Bench Verified (Bash Only)	coding	39.6	26.0
WeirdML	coding	39.0	48.2