Méthodologie
Comment nous collectons les données, ce que nous suivons, et à quelle fréquence.
Sources de données
OpenRouter API
QuotidienModel pricing (9 tiers: input, output, cache read/write, reasoning, image, audio, web search, per-request), context windows, modalities, supported parameters, deprecation dates.
Epoch AI
HebdomadaireBenchmark scores across 40+ benchmarks for 168+ models. Normalized 0-1 scores. Training compute and cost data for 3,200+ models.
SWE-bench
HebdomadaireSoftware engineering task resolution rates across 6 leaderboard variants (Verified, Lite, Full, bash-only, Multilingual, Multimodal). Cost per instance. Open-source flags.
MCP Registry
Quotidien4,000+ MCP server listings with package info, transport types, and repository links.
HuggingFace
HebdomadaireModel metadata — parameter counts, downloads, likes, licenses, model types, and last modified dates for 650+ models.
Ollama Registry
HebdomadaireLocally-runnable models — model names, sizes, quantization options for on-device inference.
Official Provider Reports
À la sortieBenchmark scores published by model providers (Anthropic, OpenAI, Google, Meta, etc.) in model cards and technical reports.
Scores de benchmark
Nous affichons les scores tels que rapportés par leur source. Les scores ne sont pas ajustés, pondérés ou normalisés pour la comparaison inter-benchmarks sauf mention explicite.
Lorsqu'un modèle a plusieurs scores pour le même benchmark, nous utilisons le score officiel publié par le fournisseur. Si aucun score officiel n'existe, nous utilisons l'évaluation indépendante la plus récente.
Score moyen
La colonne « Moy. » est une moyenne arithmétique non pondérée de tous les benchmarks testés. C’est un signal approximatif, pas un classement définitif.
Tarification
Tous les prix proviennent de l'API publique OpenRouter et représentent le meilleur fournisseur disponible. Les prix sont affichés par million de tokens. Nous suivons 9 niveaux de tarification.
Les prix sont vérifiés quotidiennement. Les changements de prix sont enregistrés avec un horodatage.
Surveillance de disponibilité
La disponibilité est mesurée en envoyant des requêtes de vérification toutes les 60 secondes depuis US-East. Nous enregistrons le temps de réponse et le code HTTP.
Le pourcentage de disponibilité est calculé sur une fenêtre glissante de 30 jours.
Classification Open Source
Un modèle est marqué « Open Source » si ses poids sont disponibles publiquement sous une licence approuvée OSI ou une licence communautaire permissive.
Fréquence de mise à jour
| Type de données | Fréquence |
|---|---|
| Tarification API | Quotidien |
| Disponibilité fournisseurs | Toutes les 60 secondes |
| Scores de benchmark | À chaque sortie + balayage hebdomadaire |
| Serveurs MCP | Quotidien |
| GitHub Stars/Forks | Quotidien |
| Répertoire de modèles | Quotidien (depuis OpenRouter) |
Corrections
Si vous trouvez une erreur, ouvrez un ticket sur notre dépôt GitHub ou contactez-nous sur Twitter @BenchGecko.
Construit par l'équipe BenchGecko. Alimenté par les données de l'écosystème IA ouvert.