Classificação/Claude Opus 4.5

Claude Opus 4.5

por Anthropic · Lançado em 2025-11-24

46.5

pontuação média

$5.00/1M

Preço de entrada

$25.00/1M

Preço de saída

200K tokens (~100 books)

Janela de contexto

multimodal

Tipo

Tested on 18 benchmarks with 46.5% average. Top scores: OTIS Mock AIME 2024-2025 (86.1%), GPQA diamond (81.4%), ARC-AGI (80.0%).

Pontuações de benchmark

Benchmark	Categoria	Pontuação
OTIS Mock AIME 2024-2025	math	86.1
GPQA diamond	knowledge	81.4
ARC-AGI	reasoning	80.0
GeoBench	knowledge	75.0
SWE-Bench Verified (Bash Only)	coding	74.4
OSWorld	agentic	66.3
WeirdML	coding	63.7
Terminal Bench	coding	63.1
SimpleBench	reasoning	54.4
SimpleQA Verified	knowledge	41.8
ARC-AGI-2	reasoning	37.6
GSO-Bench	coding	26.5
HLE	knowledge	21.4
FrontierMath-2025-02-28-Private	math	20.7
APEX-Agents	agentic	18.4
Chess Puzzles	knowledge	12.0
VPCT	knowledge	10.0
FrontierMath-Tier-4-2025-07-01-Private	math	4.2