Metodología
Cómo recopilamos datos, qué rastreamos y con qué frecuencia actualizamos.
Fuentes de datos
OpenRouter API
DiarioModel pricing (9 tiers: input, output, cache read/write, reasoning, image, audio, web search, per-request), context windows, modalities, supported parameters, deprecation dates.
Epoch AI
SemanalBenchmark scores across 40+ benchmarks for 168+ models. Normalized 0-1 scores. Training compute and cost data for 3,200+ models.
SWE-bench
SemanalSoftware engineering task resolution rates across 6 leaderboard variants (Verified, Lite, Full, bash-only, Multilingual, Multimodal). Cost per instance. Open-source flags.
MCP Registry
Diario4,000+ MCP server listings with package info, transport types, and repository links.
HuggingFace
SemanalModel metadata — parameter counts, downloads, likes, licenses, model types, and last modified dates for 650+ models.
Ollama Registry
SemanalLocally-runnable models — model names, sizes, quantization options for on-device inference.
Official Provider Reports
Al publicarBenchmark scores published by model providers (Anthropic, OpenAI, Google, Meta, etc.) in model cards and technical reports.
Puntuaciones de benchmark
Mostramos las puntuaciones tal como las reporta su fuente. No se ajustan, ponderan ni normalizan para comparación entre benchmarks salvo indicación explícita.
Cuando un modelo tiene múltiples puntuaciones para el mismo benchmark, usamos la puntuación oficial publicada por el proveedor. Si no existe, usamos la evaluación independiente más reciente.
Puntuación promedio
La columna "Prom." es una media aritmética no ponderada de todos los benchmarks probados. Es una señal aproximada, no una clasificación definitiva.
Precios
Todos los precios provienen de la API pública de OpenRouter. Los precios se muestran por millón de tokens. Rastreamos 9 niveles de precios.
Los precios se verifican diariamente. Los cambios de precio se registran con marca temporal.
Monitoreo de disponibilidad
La disponibilidad se mide enviando solicitudes de verificación cada 60 segundos desde US-East. Registramos tiempo de respuesta y código HTTP.
El porcentaje de disponibilidad se calcula sobre una ventana de 30 días.
Clasificación Open Source
Un modelo se marca como "Open Source" si sus pesos están disponibles públicamente bajo una licencia aprobada por OSI o una licencia comunitaria permisiva.
Frecuencia de actualización
| Tipo de datos | Frecuencia |
|---|---|
| Precios de API | Diario |
| Disponibilidad de proveedores | Cada 60 segundos |
| Puntuaciones de benchmark | Con cada publicación + barrido semanal |
| Servidores MCP | Diario |
| GitHub Stars/Forks | Diario |
| Directorio de modelos | Diario (desde OpenRouter) |
Correcciones
Si encuentras un error, abre un issue en nuestro repositorio de GitHub o contáctanos en Twitter @BenchGecko.
Construido por el equipo BenchGecko. Impulsado por datos del ecosistema IA abierto.