实时正在追踪来自268家提供商的976个AI模型。

BenchGecko测试版

模型976·提供商268·基准测试128·公司71·智能体165·榜首Qwen3 VL 235B A22B Instruct · 1415.8%·已更新1小时前·数据点2,902·MCP服务器4,923

排行榜/Claude Sonnet 4.5

Claude Sonnet 4.5

来自 Anthropic · 发布于 2025-09-29

42.1

平均分

$3.00/1M

输入价格

$15.00/1M

输出价格

1.0M tokens (~500 books)

上下文窗口

multimodal

类型

Tested on 21 benchmarks with 42.1% average. Top scores: MATH level 5 (97.7%), OTIS Mock AIME 2024-2025 (77.8%), GPQA diamond (76.4%).

基准测试分数

基准测试	类别	分数	Bar
MATH level 5	math	97.7
OTIS Mock AIME 2024-2025	math	77.8
GPQA diamond	knowledge	76.4
SWE-Bench verified	coding	71.3
SWE-Bench Verified (Bash Only)	coding	70.6
ARC-AGI	reasoning	63.7
OSWorld	agentic	62.9
Cybench	coding	60.0
DeepResearch Bench	knowledge	52.6
WeirdML	coding	47.7
Terminal Bench	coding	46.5
SimpleBench	reasoning	45.2
SimpleQA Verified	knowledge	23.6
FrontierMath-2025-02-28-Private	math	15.2
GSO-Bench	coding	14.7
ARC-AGI-2	reasoning	13.6
Chess Puzzles	knowledge	12.0
PostTrainBench	knowledge	9.9
VPCT	knowledge	9.7
HLE	knowledge	9.4
FrontierMath-Tier-4-2025-07-01-Private	math	4.2

相似模型

Google DeepMind

Gemma 3 27B (free)

Google DeepMind

Claude 3.5 Sonnet

Anthropic Claude Sonnet 时间线

Claude 3 SonnetJan 2024

N/AN/Actx6 benchmarks

Claude 3.5 SonnetJan 2024

N/AN/Actx25 benchmarks

Claude 3.7 SonnetFeb 2025

$3.00/M in200Kctx26 benchmarks

Claude 3.7 Sonnet (thinking)Feb 2025

$3.00/M in200Kctx

Claude Sonnet 4May 2025

$3.00/M in1.0Mctx(+800K)27 benchmarks

Claude Sonnet 4.5Sep 2025

$3.00/M in1.0Mctx21 benchmarks

Claude Sonnet 4.6Feb 2026

$3.00/M in1.0Mctx18 benchmarks