LIVE268개 제공업체의 976개 AI 모델 추적 중.

BenchGecko베타

모델976·제공업체268·벤치마크128·기업71·에이전트165·1위Qwen3 VL 235B A22B Instruct · 1415.8%·업데이트방금·데이터 포인트2,902·MCP 서버4,923

리더보드/GPT-4o (2024-11-20)

GPT-4o (2024-11-20)

제공 OpenAI · 출시일 2024-11-20

37.7

평균 점수

$2.50/1M

입력 가격

$10.00/1M

출력 가격

128K tokens (~64 books)

컨텍스트 윈도우

multimodal

유형

Tested on 28 benchmarks with 37.7% average. Top scores: ScienceQA (84.7%), HELM — WildBench (82.8%), Lech Mazur Writing (81.8%).

벤치마크 점수

벤치마크	카테고리	점수	Bar
ScienceQA	knowledge	84.7
HELM — WildBench	reasoning	82.8
Lech Mazur Writing	knowledge	81.8
HELM — IFEval	language	81.7
MMLU	knowledge	79.1
Aider — Code Editing	coding	71.4
HELM — MMLU-Pro	knowledge	71.3
GeoBench	knowledge	71.0
VideoMME	multimodal	62.5
MATH level 5	math	53.3
HELM — GPQA	knowledge	52.0
Balrog	knowledge	32.3
GPQA diamond	knowledge	32.3
SWE-Bench verified	coding	31.0
HELM — Omni-MATH	math	29.3
CadEval	coding	26.0
WeirdML	coding	25.1
Aider polyglot	coding	23.1
SWE-Bench Verified (Bash Only)	coding	21.6
Cybench	coding	12.5
VPCT	knowledge	10.0
The Agent Company	agentic	8.6
OTIS Mock AIME 2024-2025	math	6.3
ARC-AGI	reasoning	4.5
SimpleBench	reasoning	1.4
FrontierMath-2025-02-28-Private	math	0.3
GSO-Bench	coding	0.1
ARC-AGI-2	reasoning	0.1

유사 모델

Gemini 2.0 Flash Thinking (Jan 2025)

Google DeepMind

Llama 3.1 70B Instruct

Qwen2.5 Coder 14B Instruct

OpenAI GPT-4o 타임라인

$2.50/M in128Kctx

GPT-4o (2024-05-13)May 2024

$5.00/M in(+2.50)128Kctx8 benchmarks

GPT-4o (2024-08-06)Aug 2024

$2.50/M in(-2.50)128Kctx11 benchmarks

GPT-4o (2024-11-20)Nov 2024

$2.50/M in128Kctx28 benchmarks

GPT-4o (extended)May 2024

$6.00/M in(+3.50)128Kctx

GPT-4o AudioAug 2025

$2.50/M in(-3.50)128Kctx

GPT-4o Search PreviewMar 2025

$2.50/M in128Kctx

GPT-4o-miniJul 2024

$0.15/M in(-2.35)128Kctx15 benchmarks

GPT-4o-mini (2024-07-18)Jul 2024

$0.15/M in128Kctx20 benchmarks

GPT-4o-mini Search PreviewMar 2025

$0.15/M in128Kctx