Méthodologie
Comment on collecte les données, ce qu'on suit, et à quelle fréquence.
Sources de données
OpenRouter API
QuotidienModel pricing (9 tiers: input, output, cache read/write, reasoning, image, audio, web search, per-request), context windows, modalities, supported parameters, deprecation dates.
Epoch AI
HebdomadaireBenchmark scores across 40+ benchmarks for 168+ models. Normalized 0-1 scores. Training compute and cost data for 3,200+ models.
SWE-bench
HebdomadaireSoftware engineering task resolution rates across 6 leaderboard variants (Verified, Lite, Full, bash-only, Multilingual, Multimodal). Cost per instance. Open-source flags.
MCP Registry
Quotidien4,000+ MCP server listings with package info, transport types, and repository links.
HuggingFace
HebdomadaireModel metadata · parameter counts, downloads, likes, licenses, model types, and last modified dates for 650+ models.
Ollama Registry
HebdomadaireLocally-runnable models · model names, sizes, quantization options for on-device inference.
Official Provider Reports
À la sortieBenchmark scores published by model providers (Anthropic, OpenAI, Google, Meta, etc.) in model cards and technical reports.
Scores de benchmark
Les scores sont affichés tels que rapportés par leur source. Aucun ajustement, pondération ou normalisation inter-benchmarks sauf mention explicite.
Quand un modèle a plusieurs scores pour le même benchmark, on utilise le score officiel publié par le fournisseur. En l'absence de score officiel, on prend l'évaluation indépendante la plus récente.
Score moyen
La colonne « Moy. » est une moyenne arithmétique non pondérée de tous les benchmarks testés. C’est un signal approximatif, pas un classement définitif.
Tarification
Tous les prix proviennent de l'API publique OpenRouter et reflètent le meilleur fournisseur disponible. Les prix sont affichés par million de tokens. On suit 9 niveaux de tarification.
Les prix sont vérifiés quotidiennement. Chaque changement de prix est enregistré avec un horodatage.
Surveillance de disponibilité
La disponibilité est mesurée par des requêtes de vérification toutes les 60 secondes depuis US-East. On enregistre le temps de réponse et le code HTTP.
Le pourcentage de disponibilité est calculé sur une fenêtre glissante de 30 jours.
Classification Open Source
Un modèle est marqué « Open Source » si ses poids sont disponibles publiquement sous licence approuvée OSI ou sous licence communautaire permissive.
Fréquence de mise à jour
| Type de données | Fréquence |
|---|---|
| Tarification API | Quotidien |
| Disponibilité fournisseurs | Toutes les 60 secondes |
| Scores de benchmark | À chaque sortie + balayage hebdomadaire |
| Serveurs MCP | Quotidien |
| GitHub Stars/Forks | Quotidien |
| Répertoire de modèles | Quotidien (depuis OpenRouter) |
Corrections
Si vous trouvez une erreur, ouvrez un ticket sur notre dépôt GitHub ou contactez-nous sur Twitter @BenchGecko.
Construit par l'équipe BenchGecko. Alimenté par les données de l'écosystème IA ouvert.