实时正在追踪来自268家提供商的976个AI模型。

BenchGecko测试版

模型976·提供商268·基准测试128·公司71·智能体165·榜首Qwen3 VL 235B A22B Instruct · 1415.8%·已更新1小时前·数据点2,902·MCP服务器4,923

排行榜/Claude 3.7 Sonnet

Claude 3.7 Sonnet

来自 Anthropic · 发布于 2025-02-24

47.7

平均分

$3.00/1M

输入价格

$15.00/1M

输出价格

200K tokens (~100 books)

上下文窗口

multimodal

类型

Tested on 26 benchmarks with 47.7% average. Top scores: MATH level 5 (91.2%), HELM — IFEval (83.4%), Fiction.LiveBench (83.3%).

基准测试分数

基准测试	类别	分数	Bar
MATH level 5	math	91.2
HELM — IFEval	language	83.4
Fiction.LiveBench	knowledge	83.3
HELM — WildBench	reasoning	81.4
Lech Mazur Writing	knowledge	81.1
HELM — MMLU-Pro	knowledge	78.4
GPQA diamond	knowledge	73.0
GeoBench	knowledge	68.0
Aider polyglot	coding	64.9
SWE-Bench verified	coding	61.0
HELM — GPQA	knowledge	60.8
OTIS Mock AIME 2024-2025	math	57.7
CadEval	coding	54.0
SWE-Bench Verified (Bash Only)	coding	52.8
DeepResearch Bench	knowledge	43.6
OSWorld	agentic	35.8
SimpleBench	reasoning	35.7
HELM — Omni-MATH	math	33.0
The Agent Company	agentic	30.9
ARC-AGI	reasoning	28.6
Cybench	coding	20.0
VPCT	knowledge	8.5
FrontierMath-2025-02-28-Private	math	4.1
GSO-Bench	coding	3.8
HLE	knowledge	3.4
ARC-AGI-2	reasoning	0.9

相似模型

Stable Beluga 2

Claude Sonnet 4.6

Gemini 2.0 Flash

Google DeepMind

Gemini 1.5 Flash (May 2024)

Google DeepMind

Anthropic Claude Sonnet 时间线

Claude 3 SonnetJan 2024

N/AN/Actx6 benchmarks

Claude 3.5 SonnetJan 2024

N/AN/Actx25 benchmarks

Claude 3.7 SonnetFeb 2025

$3.00/M in200Kctx26 benchmarks

Claude 3.7 Sonnet (thinking)Feb 2025

$3.00/M in200Kctx

Claude Sonnet 4May 2025

$3.00/M in1.0Mctx(+800K)27 benchmarks

Claude Sonnet 4.5Sep 2025

$3.00/M in1.0Mctx21 benchmarks

Claude Sonnet 4.6Feb 2026

$3.00/M in1.0Mctx18 benchmarks