Beta

Méthodologie

Comment nous collectons les données, ce que nous suivons, et à quelle fréquence.

Sources de données

OpenRouter API

Quotidien

Model pricing (9 tiers: input, output, cache read/write, reasoning, image, audio, web search, per-request), context windows, modalities, supported parameters, deprecation dates.

Source: https://openrouter.ai/api/v1/modelsLicence: Public API, no authentication required

Epoch AI

Hebdomadaire

Benchmark scores across 40+ benchmarks for 168+ models. Normalized 0-1 scores. Training compute and cost data for 3,200+ models.

Source: https://epoch.ai/dataLicence: CC-BY 4.0

SWE-bench

Hebdomadaire

Software engineering task resolution rates across 6 leaderboard variants (Verified, Lite, Full, bash-only, Multilingual, Multimodal). Cost per instance. Open-source flags.

Source: https://www.swebench.comLicence: Open data

MCP Registry

Quotidien

4,000+ MCP server listings with package info, transport types, and repository links.

Source: https://registry.modelcontextprotocol.ioLicence: Open API

HuggingFace

Hebdomadaire

Model metadata — parameter counts, downloads, likes, licenses, model types, and last modified dates for 650+ models.

Source: https://huggingface.co/api/modelsLicence: Public API, no authentication required

Ollama Registry

Hebdomadaire

Locally-runnable models — model names, sizes, quantization options for on-device inference.

Source: https://ollama.com/api/tagsLicence: Public API

Official Provider Reports

À la sortie

Benchmark scores published by model providers (Anthropic, OpenAI, Google, Meta, etc.) in model cards and technical reports.

Licence: Public

Scores de benchmark

Nous affichons les scores tels que rapportés par leur source. Les scores ne sont pas ajustés, pondérés ou normalisés pour la comparaison inter-benchmarks sauf mention explicite.

Lorsqu'un modèle a plusieurs scores pour le même benchmark, nous utilisons le score officiel publié par le fournisseur. Si aucun score officiel n'existe, nous utilisons l'évaluation indépendante la plus récente.

Score moyen

La colonne « Moy. » est une moyenne arithmétique non pondérée de tous les benchmarks testés. C’est un signal approximatif, pas un classement définitif.

Tarification

Tous les prix proviennent de l'API publique OpenRouter et représentent le meilleur fournisseur disponible. Les prix sont affichés par million de tokens. Nous suivons 9 niveaux de tarification.

Les prix sont vérifiés quotidiennement. Les changements de prix sont enregistrés avec un horodatage.

Surveillance de disponibilité

La disponibilité est mesurée en envoyant des requêtes de vérification toutes les 60 secondes depuis US-East. Nous enregistrons le temps de réponse et le code HTTP.

Le pourcentage de disponibilité est calculé sur une fenêtre glissante de 30 jours.

Classification Open Source

Un modèle est marqué « Open Source » si ses poids sont disponibles publiquement sous une licence approuvée OSI ou une licence communautaire permissive.

Fréquence de mise à jour

Type de donnéesFréquence
Tarification APIQuotidien
Disponibilité fournisseursToutes les 60 secondes
Scores de benchmarkÀ chaque sortie + balayage hebdomadaire
Serveurs MCPQuotidien
GitHub Stars/ForksQuotidien
Répertoire de modèlesQuotidien (depuis OpenRouter)

Corrections

Si vous trouvez une erreur, ouvrez un ticket sur notre dépôt GitHub ou contactez-nous sur Twitter @BenchGecko.

Construit par l'équipe BenchGecko. Alimenté par les données de l'écosystème IA ouvert.