测试版
排行榜/Claude 2.1
Anthropic logo

Claude 2.1

来自 Anthropic · 发布于 2024-01-01

21.0
平均分
N/A
输入价格
N/A
输出价格
N/A
上下文窗口
text
类型

Tested on 4 benchmarks with 21.0% average. Top scores: MMLU (64.7%), GPQA diamond (10.6%), WeirdML (7.1%).

基准测试类别分数Bar
MMLUknowledge64.7
GPQA diamondknowledge10.6
WeirdMLcoding7.1
OTIS Mock AIME 2024-2025math1.9