实时正在追踪来自268家提供商的976个AI模型。

BenchGecko测试版

模型976·提供商268·基准测试128·公司71·智能体165·榜首Qwen3 VL 235B A22B Instruct · 1415.8%·已更新刚刚·数据点2,902·MCP服务器4,923

实时

Apr 7Claude Mythos Preview · Anthropic's most capable model arrives·Mar 31GPT-5.4 Nano launched on OpenAI·Mar 31GPT-5.4 Mini joins the OpenAI lineup·Mar 30Claude Opus 4.5 input price dropped · $5.00 per 1M tokens·Mar 30Mistral Small 4 available via Mistral AI·Mar 29Gemini 2.5 Pro scores 94.1% on MMLU·Mar 29Grok 4.20 Multi-Agent Beta enters agent rankings·Mar 28DeepSeek V3.2 output price dropped · $0.38 per 1M tokens·Mar 287 new MCP servers added in dev-tools category·Mar 27Claude Sonnet 4.6 released by Anthropic·Mar 27Claude Opus 4.6 released by Anthropic·Mar 26OTIS Mock AIME 2024-2025 benchmark added·Mar 26Claude Opus 4.1 pricing increased · $15/$75 per 1M tokens·Mar 25Grok 4.20 Beta launched by xAI·Mar 25Inception added as a tracked provider·Mar 24DeepSeek R1 0528 posted 87.2% on GPQA Diamond·Mar 243 new MCP servers in AI/ML category·Mar 23GPT-4o Audio Preview marked as deprecated·Mar 23Mistral Medium 3.1 input price cut to $0.40 per 1M tokens·Mar 22DeepSeek V3.2 Speciale released·Mar 22WeirdML benchmark now tracked on BenchGecko·Mar 20Nemotron 3 Super (120B) launched by NVIDIA·Mar 20Gemini 2.5 Flash Lite priced at $0.10/$0.40 per 1M tokens·Mar 18Mistral Large 3 2512 released by Mistral AI·Mar 18Grok Code Fast 1 added to agent rankings·Mar 16Claude Sonnet 4.5 scores 91.7% on MMLU·Mar 1612 new MCP servers added across 5 categories·Mar 14GPT-5.4 Pro launched · OpenAI's new flagship·Mar 14GPT-5.4 standard tier released by OpenAI·Mar 12Grok 3 Mini marked as deprecated by xAI·Mar 12Llama 3.3 Nemotron Super 49B pricing dropped·Mar 10Liquid added as a tracked provider·Mar 10MiniMax M2.7 released by MiniMax·Mar 8Grok 4 posted 89.4% on GPQA Diamond·Mar 8LAMBADA benchmark scores now tracked·Mar 5Gemini 2.5 Flash output price reduced to $2.50 per 1M tokens·Mar 5Mercury 2 launched by Inception·Mar 3Qwen3.5-Flash released by Alibaba Qwen·Mar 35 new MCP servers added · finance and auth categories·Apr 7Claude Mythos Preview · Anthropic's most capable model arrives·Mar 31GPT-5.4 Nano launched on OpenAI·Mar 31GPT-5.4 Mini joins the OpenAI lineup·Mar 30Claude Opus 4.5 input price dropped · $5.00 per 1M tokens·Mar 30Mistral Small 4 available via Mistral AI·Mar 29Gemini 2.5 Pro scores 94.1% on MMLU·Mar 29Grok 4.20 Multi-Agent Beta enters agent rankings·Mar 28DeepSeek V3.2 output price dropped · $0.38 per 1M tokens·Mar 287 new MCP servers added in dev-tools category·Mar 27Claude Sonnet 4.6 released by Anthropic·Mar 27Claude Opus 4.6 released by Anthropic·Mar 26OTIS Mock AIME 2024-2025 benchmark added·Mar 26Claude Opus 4.1 pricing increased · $15/$75 per 1M tokens·Mar 25Grok 4.20 Beta launched by xAI·Mar 25Inception added as a tracked provider·Mar 24DeepSeek R1 0528 posted 87.2% on GPQA Diamond·Mar 243 new MCP servers in AI/ML category·Mar 23GPT-4o Audio Preview marked as deprecated·Mar 23Mistral Medium 3.1 input price cut to $0.40 per 1M tokens·Mar 22DeepSeek V3.2 Speciale released·Mar 22WeirdML benchmark now tracked on BenchGecko·Mar 20Nemotron 3 Super (120B) launched by NVIDIA·Mar 20Gemini 2.5 Flash Lite priced at $0.10/$0.40 per 1M tokens·Mar 18Mistral Large 3 2512 released by Mistral AI·Mar 18Grok Code Fast 1 added to agent rankings·Mar 16Claude Sonnet 4.5 scores 91.7% on MMLU·Mar 1612 new MCP servers added across 5 categories·Mar 14GPT-5.4 Pro launched · OpenAI's new flagship·Mar 14GPT-5.4 standard tier released by OpenAI·Mar 12Grok 3 Mini marked as deprecated by xAI·Mar 12Llama 3.3 Nemotron Super 49B pricing dropped·Mar 10Liquid added as a tracked provider·Mar 10MiniMax M2.7 released by MiniMax·Mar 8Grok 4 posted 89.4% on GPQA Diamond·Mar 8LAMBADA benchmark scores now tracked·Mar 5Gemini 2.5 Flash output price reduced to $2.50 per 1M tokens·Mar 5Mercury 2 launched by Inception·Mar 3Qwen3.5-Flash released by Alibaba Qwen·Mar 35 new MCP servers added · finance and auth categories·

AI 经济，全面追踪。

今日 AI · Claude Mythos Preview · Anthropic's most capable model arrives

脉搏20·健康

泡沫278%·波动

Claude Mythos Preview+4.1

Open Source16.2%

服务商状态 · 24h完整状态 →

Google DeepMind100%

排行榜

Qwen3.5 397B A17B

#1

96.3

$0.39/M

DeepSeek V3.2 Speciale

#2

95.2

$0.40/M

GPT-5.4 Pro

#3

93.0

$30.00/M

GPT-5.1-Codex-Max

#4

91.2

$1.25/M

Gemini 3.1 Pro Preview

#5

90.0

$2.00/M

Step 3.5 Flash

#6

89.5

$0.10/M

GPT-5 Chat

#7

89.0

$1.25/M

Qwen3.6 Plus

#8

88.7

$0.33/M

GLM 5.1

#9

87.0

$1.05/M

GPT-5.2-Codex

#10

85.4

$1.75/M

GPT-5.4

#11

83.4

$2.50/M

Claude Opus 4.6 (Fast)

#12

83.3

$30.00/M

GPT-5.1-Codex

#13

82.8

$1.25/M

柱宽 · 平均基准分数 · 颜色 · 类别

热度竞技场

查看完整脉搏 →

Claude Mythos Preview

Claude Opus 4.6

DeepSeek V3.2 Speciale

方块大小 · 声量占比 · 颜色 · 7 天趋势（绿色上升，红色下降）

The Pulse

脉搏

20 /100

healthy

7d · +3 分

泡沫指数 · 分项

Valuation Premium+2.1

Funding Acceleration+1.5

Concentration Risk0

Revenue Quality+1.4

Capex Gap+0.3

最大变动 · Valuation Premium 上升 2.1 分

AI 泡沫指数278%

健康泡沫初现过热泡沫

已更新 Apr 22·方法论·免费 API

跨层信号 · 1 / 4

Bubble Index sits at 278% · Gecko Pulse reads 20/100 (healthy). Capex keeps outpacing revenue.

最新基准测试变动

Claude Mythos Preview

Qwen3.5 397B A17B

DeepSeek V3.2 Speciale

GPT-5.1-Codex-Max

芯片效率竞赛

今日 AI

Claude Mythos Preview · Anthropic's most capable model arrives Mar 31

GPT-5.4 Nano launched on OpenAI Mar 31

GPT-5.4 Mini joins the OpenAI lineup Mar 30

Claude Opus 4.5 input price dropped · $5.00 per 1M tokens Mar 30

Mistral Small 4 available via Mistral AI Mar 29

Gemini 2.5 Pro scores 94.1% on MMLU Mar 29

Grok 4.20 Multi-Agent Beta enters agent rankings Mar 28

DeepSeek V3.2 output price dropped · $0.38 per 1M tokens Mar 287 new MCP servers added in dev-tools category Mar 27

Claude Sonnet 4.6 released by Anthropic Mar 27

Claude Opus 4.6 released by Anthropic Mar 26OTIS Mock AIME 2024-2025 benchmark added

更多指标

Pulse rose +3 this week · Claude Mythos Preview drove benchmark velocity.

AI Bubble Index

frothy · valuation premium leading the move.

Mindshare Pulse

Narrative energy spread across models · no single winner.

AICDI · Compute

Data-center intensity climbing · HBM bookings tight.

FCI · Foundries

TSMC N3 utilisation above 90% · queue deepening.

HBM3E scarcity driving GPU street prices up.

Lead times stretching past 52 weeks · supply cliff watch.

Capex / Rev Gap

Hyperscaler capex outpacing AI revenue by 3.4× · widening.

矩阵 · 前 20 模型

完整矩阵 →

#					基准测试
1	Claude Mythos Preview	100.0	—	1000K	14
2	Qwen3.5 397B A17B	96.3	$0.39	262K	11
3	DeepSeek V3.2 Speciale	95.2	$0.40	164K	9
4	GPT-5.4 Pro	93.0	$30.00	1050K	8
5	GPT-5.1-Codex-Max	91.2	$1.25	400K	8
6	Gemini 3.1 Pro Preview	90.0	$2.00	1049K	23
7	Step 3.5 Flash	89.5	$0.10	262K	10
8	GPT-5 Chat	89.0	$1.25	128K	7
9	Qwen3.6 Plus	88.7	$0.33	1000K	11
10	DeepSeek R1 Distill Qwen 14B	88.3	—	—	11
11	HA Qwen2.5 72B Instruct Abliterated	87.5	—	—	6
12	GLM 5.1	87.0	$1.05	203K	12
13	GPT-5.2-Codex	85.4	$1.75	400K	9
14	Claude Instant	84.6	—	—	4
15	DeepSeek-V2 (MoE-236B, May 2024)	84.4	—	—	7
16	GPT-5.4	83.4	$2.50	1050K	16
17	Claude Opus 4.6 (Fast)	83.3	$30.00	1000K	12
18	GPT-5.1-Codex	82.8	$1.25	400K	8
19	MiMo-V2-Flash	81.7	$0.09	262K	11
20	Qwen2.5 32B Instruct	81.3	—	—	7

数据栈 · 10 个数据层

基准测试、价格、上下文 · 每个前沿模型

跨所有 AI 推理供应商的可用性矩阵

SWE-bench · MLE-bench · OSWorld 等

每项主要基准测试的分数演变

泡沫指数 · 估值 · 融资 · 市值

Kaito 风格的全信号注意力追踪

芯片 · 代工厂 · 内存 · 系统 · 能源

套利发现 · 替代发现 · 免费层追踪

251 术语 · 词汇表 · 学习路径

通用对比 · 模型 · 智能体 · 供应商

学习 AI

所有路径 →

路径 · 7 术语

The AI Bubble Explained

Seven terms that decode whether AI is overpriced, fairly priced, or criminally underpriced. Read in order.

路径 · 6 术语

Pick an AI Model

Six terms to go from "I need an AI" to "here is the cheapest model that meets my spec."

路径 · 7 术语

From Sand to Model

The AI supply chain in 7 terms · foundry, memory, chip, system, datacenter, provider, API.

搜索 293 AI 术语 · 从 transformer 到注意力溢价打开 →

精选指标

AI 生态健康 · 0-100 综合指数

查看完整图表 →

AI 泡沫指数

当前读数 vs 互联网泡沫峰值

查看完整图表 →

热度竞技场

模型声量占比

查看完整图表 →

平均基准分数最高的模型

查看完整图表 →

内存供应紧张指数

查看完整图表 →

抛物线式资本支出

超大规模企业 AI 资本支出轨迹

查看完整图表 →

方法论 · FAQ · 新鲜度

完整方法论 →

BenchGecko 数据多久更新一次？›

模型和基准测试数据每日从主要来源刷新。定价从每个供应商 API 滚动拉取。热度信号每周汇总。脉搏在 UTC 00:00 重新计算。

什么是脉搏？›

一个 0-100 的 AI 经济健康综合分数。融合了反向泡沫指数、基准测试速度、价格压缩、热度多样性和供应链紧张度。数字越低越健康。

基准测试分数如何标准化？›

每项基准测试在所有已评分模型中进行最小最大归一化。排名取每个模型在 3 项以上基准测试中的归一化分数平均值，以避免过度加权单项测试。

定价数据来自哪里？›

直接来自供应商 API 响应 · OpenRouter、OpenAI、Anthropic、Google、xAI、DeepSeek、Mistral 等。每份快照都在模型详情页附有来源归属缓存。

可以引用 BenchGecko 的数据吗？›

可以。每个页面都提供分享与引用栏，含 APA、MLA、BibTeX、Chicago 和纯文本格式。免费 API 层要求归属，所有场景均建议归属。

数据来源 ·OpenRouterEpoch AISWE-benchMCP RegistryChatbot ArenaHuggingFaceLiveBenchArtificial AnalysisSEALAider

2 小时前更新 · 10+ 权威来源 · 零编辑内容