LIVE268개 제공업체의 976개 AI 모델 추적 중.

BenchGecko베타

모델976·제공업체268·벤치마크128·기업71·에이전트165·1위Qwen3 VL 235B A22B Instruct · 1415.8%·업데이트1시간 전·데이터 포인트2,902·MCP 서버4,923

리더보드/o4 Mini

o4 Mini

제공 OpenAI · 출시일 2025-04-16

53.2

평균 점수

$1.10/1M

입력 가격

$4.40/1M

출력 가격

200K tokens (~100 books)

컨텍스트 윈도우

multimodal

유형

Tested on 26 benchmarks with 53.2% average. Top scores: MATH level 5 (97.8%), HELM — IFEval (92.9%), HELM — WildBench (85.4%).

벤치마크 점수

벤치마크	카테고리	점수	Bar
MATH level 5	math	97.8
HELM — IFEval	language	92.9
HELM — WildBench	reasoning	85.4
HELM — MMLU-Pro	knowledge	82.0
OTIS Mock AIME 2024-2025	math	81.7
Fiction.LiveBench	knowledge	77.8
Lech Mazur Writing	knowledge	75.0
HELM — GPQA	knowledge	73.5
GPQA diamond	knowledge	72.8
Aider polyglot	coding	72.0
HELM — Omni-MATH	math	72.0
GeoBench	knowledge	64.0
CadEval	coding	62.0
ARC-AGI	reasoning	58.7
WeirdML	coding	52.6
VISTA	knowledge	51.8
SWE-Bench Verified (Bash Only)	coding	45.0
VPCT	knowledge	36.3
SimpleBench	reasoning	26.4
Chess Puzzles	knowledge	26.0
FrontierMath-2025-02-28-Private	math	24.8
SimpleQA Verified	knowledge	23.9
HLE	knowledge	13.9
FrontierMath-Tier-4-2025-07-01-Private	math	6.3
ARC-AGI-2	reasoning	6.1
GSO-Bench	coding	3.6

유사 모델

DeepSeek V3.2 Exp

Qwen2.5 72B Instruct

Kimi K2 Thinking

Qwen2.5 Coder 32B Instruct

OpenAI o4 타임라인

o4 MiniApr 2025

$1.10/M in200Kctx26 benchmarks

o4 Mini Deep ResearchOct 2025

$2.00/M in(+0.90)200Kctx

o4 Mini HighApr 2025

$1.10/M in(-0.90)200Kctx1 benchmark