方法論
データの取得方法、追跡対象、更新頻度について。
データソース
OpenRouter API
毎日Model pricing (9 tiers: input, output, cache read/write, reasoning, image, audio, web search, per-request), context windows, modalities, supported parameters, deprecation dates.
Epoch AI
毎週Benchmark scores across 40+ benchmarks for 168+ models. Normalized 0-1 scores. Training compute and cost data for 3,200+ models.
SWE-bench
毎週Software engineering task resolution rates across 6 leaderboard variants (Verified, Lite, Full, bash-only, Multilingual, Multimodal). Cost per instance. Open-source flags.
MCP Registry
毎日4,000+ MCP server listings with package info, transport types, and repository links.
HuggingFace
毎週Model metadata · parameter counts, downloads, likes, licenses, model types, and last modified dates for 650+ models.
Ollama Registry
毎週Locally-runnable models · model names, sizes, quantization options for on-device inference.
Official Provider Reports
リリース時Benchmark scores published by model providers (Anthropic, OpenAI, Google, Meta, etc.) in model cards and technical reports.
ベンチマークスコア
スコアはソースから報告されたままの値を表示しています。明示的に注記されている場合を除き、ベンチマーク間の比較のための調整、重み付け、正規化は行っておりません。各スコアは可能な限りソースへのリンクを提供しています。
同一ベンチマークに対してモデルが複数のスコアを持つ場合(例:異なる評価設定)、モデルプロバイダーが公式に発表したスコアを使用します。公式スコアが存在しない場合は、最新の独立した評価結果を使用します。
平均スコア
ランキングの「平均」列は、モデルがテストされたすべてのベンチマークにわたる非加重算術平均です。これは大まかな指標であり、決定的なランキングではありません。より多くのベンチマークでテストされたモデルは、より難しいテストに晒されるため、平均が低くなる場合があります。
料金
すべての料金はOpenRouterの公開APIから取得しており、各モデルの最上位利用可能プロバイダーの価格を表しています。料金は100万トークンあたりで表示されます。入力、出力、キャッシュ読取、キャッシュ書込、画像、音声、内部推論、ウェブ検索、リクエスト単位の9つの料金体系を追跡しています。
料金は毎日確認されます。料金変更が検出された場合、新しい料金はタイムスタンプとともに記録されます。料金の履歴データは保存されていますが、現時点では表示されていません。
稼働率モニタリング
プロバイダーの稼働率は、米国東部から各プロバイダーのAPIエンドポイントに60秒ごとに軽量なヘルスチェックリクエストを送信して計測しています。応答時間(レイテンシ)とHTTPステータスコードを記録しています。プロバイダーの平均レイテンシが30日間の基準値の2倍を超えると「低下」、リクエストが継続的に失敗すると「障害」と判定されます。
稼働率はローリング30日間ウィンドウで算出されます。これはAPIエンドポイントの可用性を反映しており、個別モデルの可用性ではありません。
Open Source分類
モデルが「Open Source」と表示されるのは、重みがOSI承認ライセンス(Apache 2.0、MIT)または寛容なコミュニティライセンス(Llama Community License)の下で公開ダウンロードおよび利用可能な場合です。制限的ライセンスの下での「オープンウェイト」モデルは別途表示されます。
更新頻度
| データタイプ | 頻度 |
|---|---|
| API料金 | 毎日 |
| プロバイダー稼働率 | 60秒ごと |
| ベンチマークスコア | 新リリース時 + 週次スキャン |
| MCP サーバー | 毎日 |
| GitHubスター/フォーク | 毎日 |
| モデルディレクトリ | 毎日(OpenRouterより取得) |
修正について
データに誤りを発見された場合は、GitHubリポジトリでissueを作成するか、Twitter @BenchGecko までご連絡ください。データの正確性を重視しており、24時間以内に修正いたします。
BenchGeckoチームが構築。オープンAIエコシステムのデータで運営。