方法论
我们如何获取数据、追踪哪些内容以及更新频率。
数据来源
OpenRouter API
每日Model pricing (9 tiers: input, output, cache read/write, reasoning, image, audio, web search, per-request), context windows, modalities, supported parameters, deprecation dates.
Epoch AI
每周Benchmark scores across 40+ benchmarks for 168+ models. Normalized 0-1 scores. Training compute and cost data for 3,200+ models.
SWE-bench
每周Software engineering task resolution rates across 6 leaderboard variants (Verified, Lite, Full, bash-only, Multilingual, Multimodal). Cost per instance. Open-source flags.
MCP Registry
每日4,000+ MCP server listings with package info, transport types, and repository links.
HuggingFace
每周Model metadata · parameter counts, downloads, likes, licenses, model types, and last modified dates for 650+ models.
Ollama Registry
每周Locally-runnable models · model names, sizes, quantization options for on-device inference.
Official Provider Reports
发布时Benchmark scores published by model providers (Anthropic, OpenAI, Google, Meta, etc.) in model cards and technical reports.
基准测试分数
我们如实展示各来源报告的分数。除非明确注明,分数不会被调整、加权或标准化以进行跨基准测试比较。每个分数都尽可能附有来源链接。
当一个模型在同一基准测试中有多个分数(例如不同评测设置)时,我们使用模型供应商发布的官方分数。如果没有官方分数,我们使用最近的独立评测结果。
平均分数
排行榜中的"均分"列是该模型在所有已测试基准测试中的未加权算术平均值。这只是一个粗略信号,并非权威排名。在更多基准测试中被测试的模型可能因接受了更难的测试而平均分较低。
定价
所有定价数据来源于 OpenRouter 的公开 API,代表每个模型的最优可用供应商。价格以每百万 tokens 为单位显示。我们追踪 9 种定价类型:输入、输出、缓存读取、缓存写入、图像、音频、内部推理、网络搜索和按请求收费。
定价每日检查。当检测到价格变动时,新价格会带时间戳记录。历史价格数据已存储但暂未展示。
在线率监控
供应商在线率通过每 60 秒从美国东部向每个供应商的 API 端点发送轻量级健康检查请求来测量。我们记录响应时间(延迟)和 HTTP 状态码。如果平均延迟超过其 30 天基线的 2 倍,则标记为"性能下降";如果请求持续失败,则标记为"服务中断"。
在线率百分比基于滚动 30 天窗口计算。这反映的是 API 端点可用性,而非单个模型的可用性。
Open Source 分类
如果模型的权重可公开下载并在 OSI 认可的许可证(Apache 2.0、MIT)或宽松社区许可证(Llama Community License)下使用,则标记为"Open Source"。在限制性许可证下的"开放权重"模型会单独标注。
更新频率
| 数据类型 | 频率 |
|---|---|
| API 定价 | 每日 |
| 供应商在线率 | 每 60 秒 |
| 基准测试分数 | 新版本发布时 + 每周巡检 |
| MCP 服务器 | 每日 |
| GitHub Stars/Forks | 每日 |
| 模型目录 | 每日(来自 OpenRouter) |
数据勘误
如果您发现我们的数据有误,请在我们的 GitHub 仓库提交 issue 或通过 Twitter @BenchGecko 联系我们。我们非常重视数据准确性,将在 24 小时内修正错误。
由 BenchGecko 团队打造。数据源自开放 AI 生态系统。