LIVE268개 제공업체의 976개 AI 모델 추적 중.

BenchGecko베타

모델976·제공업체268·벤치마크128·기업71·에이전트165·1위Qwen3 VL 235B A22B Instruct · 1415.8%·업데이트1시간 전·데이터 포인트2,902·MCP 서버4,923

리더보드/GPT-4.1

GPT-4.1

제공 OpenAI · 출시일 2025-04-14

43.3

평균 점수

$2.00/1M

입력 가격

$8.00/1M

출력 가격

1.0M tokens (~524 books)

컨텍스트 윈도우

multimodal

유형

Tested on 22 benchmarks with 43.3% average. Top scores: HELM — WildBench (85.4%), HELM — IFEval (83.8%), MATH level 5 (83.0%).

벤치마크 점수

벤치마크	카테고리	점수	Bar
HELM — WildBench	reasoning	85.4
HELM — IFEval	language	83.8
MATH level 5	math	83.0
HELM — MMLU-Pro	knowledge	81.1
GeoBench	knowledge	72.0
HELM — GPQA	knowledge	65.9
Fiction.LiveBench	knowledge	63.9
GPQA diamond	knowledge	55.9
Aider polyglot	coding	52.4
SWE-Bench verified	coding	48.5
HELM — Omni-MATH	math	47.1
CadEval	coding	42.0
SWE-Bench Verified (Bash Only)	coding	39.6
WeirdML	coding	39.0
OTIS Mock AIME 2024-2025	math	38.3
DeepResearch Bench	knowledge	29.3
SimpleBench	reasoning	12.4
FrontierMath-2025-02-28-Private	math	5.5
ARC-AGI	reasoning	5.5
HLE	knowledge	0.6
ARC-AGI-2	reasoning	0.4
FrontierMath-Tier-4-2025-07-01-Private	math	0.1

유사 모델

Qwen2.5 32B Instruct

GPT-4o-mini (2024-07-18)

OpenAI GPT-4.1 타임라인

GPT-4.1Apr 2025

$2.00/M in1.0Mctx22 benchmarks

GPT-4.1 MiniApr 2025

$0.40/M in(-1.60)1.0Mctx16 benchmarks

GPT-4.1 NanoApr 2025

$0.10/M in(-0.30)1.0Mctx14 benchmarks