测试版

方法论

我们如何获取数据、追踪哪些内容以及更新频率。

OpenRouter API

每日

Model pricing (9 tiers: input, output, cache read/write, reasoning, image, audio, web search, per-request), context windows, modalities, supported parameters, deprecation dates.

来源: https://openrouter.ai/api/v1/models许可证: Public API, no authentication required

Epoch AI

每周

Benchmark scores across 40+ benchmarks for 168+ models. Normalized 0-1 scores. Training compute and cost data for 3,200+ models.

来源: https://epoch.ai/data许可证: CC-BY 4.0

SWE-bench

每周

Software engineering task resolution rates across 6 leaderboard variants (Verified, Lite, Full, bash-only, Multilingual, Multimodal). Cost per instance. Open-source flags.

来源: https://www.swebench.com许可证: Open data

MCP Registry

每日

4,000+ MCP server listings with package info, transport types, and repository links.

来源: https://registry.modelcontextprotocol.io许可证: Open API

HuggingFace

每周

Model metadata · parameter counts, downloads, likes, licenses, model types, and last modified dates for 650+ models.

来源: https://huggingface.co/api/models许可证: Public API, no authentication required

Ollama Registry

每周

Locally-runnable models · model names, sizes, quantization options for on-device inference.

来源: https://ollama.com/api/tags许可证: Public API

Official Provider Reports

发布时

Benchmark scores published by model providers (Anthropic, OpenAI, Google, Meta, etc.) in model cards and technical reports.

许可证: Public

我们如实展示各来源报告的分数。除非明确注明,分数不会被调整、加权或标准化以进行跨基准测试比较。每个分数都尽可能附有来源链接。

当一个模型在同一基准测试中有多个分数(例如不同评测设置)时,我们使用模型供应商发布的官方分数。如果没有官方分数,我们使用最近的独立评测结果。

排行榜中的"均分"列是该模型在所有已测试基准测试中的未加权算术平均值。这只是一个粗略信号,并非权威排名。在更多基准测试中被测试的模型可能因接受了更难的测试而平均分较低。

所有定价数据来源于 OpenRouter 的公开 API,代表每个模型的最优可用供应商。价格以每百万 tokens 为单位显示。我们追踪 9 种定价类型:输入、输出、缓存读取、缓存写入、图像、音频、内部推理、网络搜索和按请求收费。

定价每日检查。当检测到价格变动时,新价格会带时间戳记录。历史价格数据已存储但暂未展示。

供应商在线率通过每 60 秒从美国东部向每个供应商的 API 端点发送轻量级健康检查请求来测量。我们记录响应时间(延迟)和 HTTP 状态码。如果平均延迟超过其 30 天基线的 2 倍,则标记为"性能下降";如果请求持续失败,则标记为"服务中断"。

在线率百分比基于滚动 30 天窗口计算。这反映的是 API 端点可用性,而非单个模型的可用性。

如果模型的权重可公开下载并在 OSI 认可的许可证(Apache 2.0、MIT)或宽松社区许可证(Llama Community License)下使用,则标记为"Open Source"。在限制性许可证下的"开放权重"模型会单独标注。

数据类型频率
API 定价每日
供应商在线率每 60 秒
基准测试分数新版本发布时 + 每周巡检
MCP 服务器每日
GitHub Stars/Forks每日
模型目录每日(来自 OpenRouter)

如果您发现我们的数据有误,请在我们的 GitHub 仓库提交 issue 或通过 Twitter @BenchGecko 联系我们。我们非常重视数据准确性,将在 24 小时内修正错误。

由 BenchGecko 团队打造。数据源自开放 AI 生态系统。