实时正在追踪来自268家提供商的976个AI模型。

BenchGecko测试版

模型976·提供商268·基准测试128·公司71·智能体165·榜首Qwen3 VL 235B A22B Instruct · 1415.8%·已更新2小时前·数据点2,902·MCP服务器4,923

排行榜/Gemini 1.5 Flash (May 2024)

Gemini 1.5 Flash (May 2024)

来自 Google DeepMind · 发布于 2024-01-01

47.4

平均分

N/A

输入价格

N/A

输出价格

N/A

上下文窗口

text

类型

Tested on 17 benchmarks with 47.4% average. Top scores: Chatbot Arena Elo — Overall (1285.1%), HELM — IFEval (83.1%), GSM8K (82.4%).

基准测试分数

基准测试	类别	分数	Bar
Chatbot Arena Elo — Overall	arena	1285.1
HELM — IFEval	language	83.1
GSM8K	math	82.4
HELM — WildBench	reasoning	79.2
GeoBench	knowledge	76.0
PIQA	knowledge	75.0
MMLU	knowledge	70.5
HELM — MMLU-Pro	knowledge	67.8
VideoMME	multimodal	60.4
HELM — GPQA	knowledge	43.7
HELM — Omni-MATH	math	30.5
MATH level 5	math	25.1
WeirdML	coding	24.9
GPQA diamond	knowledge	20.5
Balrog	knowledge	14.6
OTIS Mock AIME 2024-2025	math	3.8
FrontierMath-2025-02-28-Private	math	0.1

相似模型

Qwen2 VL 7B Instruct

Qwen3 4B Instruct 2507

Claude Sonnet 4.6

Claude 3.7 Sonnet