Metodología

Cómo recopilamos datos, qué rastreamos y con qué frecuencia actualizamos.

Fuentes de datos

OpenRouter API

Diario

Model pricing (9 tiers: input, output, cache read/write, reasoning, image, audio, web search, per-request), context windows, modalities, supported parameters, deprecation dates.

Fuente: https://openrouter.ai/api/v1/modelsLicencia: Public API, no authentication required

Epoch AI

Semanal

Benchmark scores across 40+ benchmarks for 168+ models. Normalized 0-1 scores. Training compute and cost data for 3,200+ models.

Fuente: https://epoch.ai/dataLicencia: CC-BY 4.0

SWE-bench

Semanal

Software engineering task resolution rates across 6 leaderboard variants (Verified, Lite, Full, bash-only, Multilingual, Multimodal). Cost per instance. Open-source flags.

Fuente: https://www.swebench.comLicencia: Open data

MCP Registry

Diario

4,000+ MCP server listings with package info, transport types, and repository links.

Fuente: https://registry.modelcontextprotocol.ioLicencia: Open API

HuggingFace

Semanal

Model metadata · parameter counts, downloads, likes, licenses, model types, and last modified dates for 650+ models.

Fuente: https://huggingface.co/api/modelsLicencia: Public API, no authentication required

Ollama Registry

Semanal

Locally-runnable models · model names, sizes, quantization options for on-device inference.

Fuente: https://ollama.com/api/tagsLicencia: Public API

Official Provider Reports

Al publicar

Benchmark scores published by model providers (Anthropic, OpenAI, Google, Meta, etc.) in model cards and technical reports.

Licencia: Public

Puntuaciones de benchmark

Mostramos las puntuaciones tal como las reporta su fuente. No se ajustan, ponderan ni normalizan para comparación entre benchmarks salvo indicación explícita.

Cuando un modelo tiene múltiples puntuaciones para el mismo benchmark, usamos la puntuación oficial publicada por el proveedor. Si no existe, usamos la evaluación independiente más reciente.

Puntuación promedio

La columna "Prom." es una media aritmética no ponderada de todos los benchmarks probados. Es una señal aproximada, no una clasificación definitiva.

Precios

Todos los precios provienen de la API pública de OpenRouter. Se muestran por millón de tokens. Rastreamos 9 niveles de precios.

Los precios se verifican a diario. Los cambios de precio se registran con marca temporal.

Monitoreo de disponibilidad

La disponibilidad se mide enviando solicitudes de verificación cada 60 segundos desde US-East. Registramos tiempo de respuesta y código HTTP.

El porcentaje de disponibilidad se calcula sobre una ventana de 30 días.

Clasificación Open Source

Un modelo se marca como "Open Source" si sus pesos están disponibles públicamente bajo una licencia aprobada por OSI o una licencia comunitaria permisiva.

Frecuencia de actualización

Tipo de datos	Frecuencia
Precios de API	Diario
Disponibilidad de proveedores	Cada 60 segundos
Puntuaciones de benchmark	Con cada publicación + barrido semanal
Servidores MCP	Diario
GitHub Stars/Forks	Diario
Directorio de modelos	Diario (desde OpenRouter)

Correcciones

Si encuentras un error, abre un issue en nuestro repositorio de GitHub o contáctanos en Twitter @BenchGecko.

Construido por el equipo BenchGecko. Impulsado por datos del ecosistema IA abierto.