实时正在追踪来自268家提供商的976个AI模型。

BenchGecko测试版

模型976·提供商268·基准测试128·公司71·智能体165·榜首Qwen3 VL 235B A22B Instruct · 1415.8%·已更新刚刚·数据点2,902·MCP服务器4,923

排行榜/Claude 3.5 Haiku

Claude 3.5 Haiku

来自 Anthropic · 发布于 2024-11-04

37.2

平均分

$0.80/1M

输入价格

$4.00/1M

输出价格

200K tokens (~100 books)

上下文窗口

multimodal

类型

Tested on 17 benchmarks with 37.2% average. Top scores: HELM — IFEval (79.2%), HELM — WildBench (76.0%), Lech Mazur Writing (73.5%).

基准测试分数

基准测试	类别	分数	Bar
HELM — IFEval	language	79.2
HELM — WildBench	reasoning	76.0
Lech Mazur Writing	knowledge	73.5
MMLU	knowledge	65.7
HELM — MMLU-Pro	knowledge	60.5
MATH level 5	math	46.4
HELM — GPQA	knowledge	36.3
GeoBench	knowledge	34.0
CadEval	coding	32.0
WeirdML	coding	30.7
Aider polyglot	coding	28.0
HELM — Omni-MATH	math	22.4
Balrog	knowledge	19.3
GPQA diamond	knowledge	17.5
SimpleQA Verified	knowledge	6.7
OTIS Mock AIME 2024-2025	math	4.2
FrontierMath-2025-02-28-Private	math	0.3

相似模型

Claude Haiku 4.5

Qwen2.5 Coder 14B Instruct

Anthropic Claude Haiku 时间线

Claude 3 HaikuMar 2024

$0.25/M in200Kctx8 benchmarks

Claude 3.5 HaikuNov 2024

$0.80/M in(+0.55)200Kctx17 benchmarks

Claude Haiku 4.5Oct 2025

$1.00/M in(+0.20)200Kctx10 benchmarks