ベータ

方法論

データの取得方法、追跡対象、更新頻度について。

OpenRouter API

毎日

Model pricing (9 tiers: input, output, cache read/write, reasoning, image, audio, web search, per-request), context windows, modalities, supported parameters, deprecation dates.

ソース: https://openrouter.ai/api/v1/modelsライセンス: Public API, no authentication required

Epoch AI

毎週

Benchmark scores across 40+ benchmarks for 168+ models. Normalized 0-1 scores. Training compute and cost data for 3,200+ models.

ソース: https://epoch.ai/dataライセンス: CC-BY 4.0

SWE-bench

毎週

Software engineering task resolution rates across 6 leaderboard variants (Verified, Lite, Full, bash-only, Multilingual, Multimodal). Cost per instance. Open-source flags.

ソース: https://www.swebench.comライセンス: Open data

MCP Registry

毎日

4,000+ MCP server listings with package info, transport types, and repository links.

ソース: https://registry.modelcontextprotocol.ioライセンス: Open API

HuggingFace

毎週

Model metadata · parameter counts, downloads, likes, licenses, model types, and last modified dates for 650+ models.

ソース: https://huggingface.co/api/modelsライセンス: Public API, no authentication required

Ollama Registry

毎週

Locally-runnable models · model names, sizes, quantization options for on-device inference.

ソース: https://ollama.com/api/tagsライセンス: Public API

Official Provider Reports

リリース時

Benchmark scores published by model providers (Anthropic, OpenAI, Google, Meta, etc.) in model cards and technical reports.

ライセンス: Public

スコアはソースから報告されたままの値を表示しています。明示的に注記されている場合を除き、ベンチマーク間の比較のための調整、重み付け、正規化は行っておりません。各スコアは可能な限りソースへのリンクを提供しています。

同一ベンチマークに対してモデルが複数のスコアを持つ場合(例:異なる評価設定)、モデルプロバイダーが公式に発表したスコアを使用します。公式スコアが存在しない場合は、最新の独立した評価結果を使用します。

ランキングの「平均」列は、モデルがテストされたすべてのベンチマークにわたる非加重算術平均です。これは大まかな指標であり、決定的なランキングではありません。より多くのベンチマークでテストされたモデルは、より難しいテストに晒されるため、平均が低くなる場合があります。

すべての料金はOpenRouterの公開APIから取得しており、各モデルの最上位利用可能プロバイダーの価格を表しています。料金は100万トークンあたりで表示されます。入力、出力、キャッシュ読取、キャッシュ書込、画像、音声、内部推論、ウェブ検索、リクエスト単位の9つの料金体系を追跡しています。

料金は毎日確認されます。料金変更が検出された場合、新しい料金はタイムスタンプとともに記録されます。料金の履歴データは保存されていますが、現時点では表示されていません。

プロバイダーの稼働率は、米国東部から各プロバイダーのAPIエンドポイントに60秒ごとに軽量なヘルスチェックリクエストを送信して計測しています。応答時間(レイテンシ)とHTTPステータスコードを記録しています。プロバイダーの平均レイテンシが30日間の基準値の2倍を超えると「低下」、リクエストが継続的に失敗すると「障害」と判定されます。

稼働率はローリング30日間ウィンドウで算出されます。これはAPIエンドポイントの可用性を反映しており、個別モデルの可用性ではありません。

モデルが「Open Source」と表示されるのは、重みがOSI承認ライセンス(Apache 2.0、MIT)または寛容なコミュニティライセンス(Llama Community License)の下で公開ダウンロードおよび利用可能な場合です。制限的ライセンスの下での「オープンウェイト」モデルは別途表示されます。

データタイプ頻度
API料金毎日
プロバイダー稼働率60秒ごと
ベンチマークスコア新リリース時 + 週次スキャン
MCP サーバー毎日
GitHubスター/フォーク毎日
モデルディレクトリ毎日(OpenRouterより取得)

データに誤りを発見された場合は、GitHubリポジトリでissueを作成するか、Twitter @BenchGecko までご連絡ください。データの正確性を重視しており、24時間以内に修正いたします。

BenchGeckoチームが構築。オープンAIエコシステムのデータで運営。