Metodologia

Como coletamos dados, o que rastreamos e com que frequência atualizamos.

OpenRouter API

Diária

Model pricing (9 tiers: input, output, cache read/write, reasoning, image, audio, web search, per-request), context windows, modalities, supported parameters, deprecation dates.

Fonte: https://openrouter.ai/api/v1/modelsLicença: Public API, no authentication required

Epoch AI

Semanal

Benchmark scores across 40+ benchmarks for 168+ models. Normalized 0-1 scores. Training compute and cost data for 3,200+ models.

Fonte: https://epoch.ai/dataLicença: CC-BY 4.0

SWE-bench

Semanal

Software engineering task resolution rates across 6 leaderboard variants (Verified, Lite, Full, bash-only, Multilingual, Multimodal). Cost per instance. Open-source flags.

Fonte: https://www.swebench.comLicença: Open data

MCP Registry

Diária

4,000+ MCP server listings with package info, transport types, and repository links.

Fonte: https://registry.modelcontextprotocol.ioLicença: Open API

HuggingFace

Semanal

Model metadata · parameter counts, downloads, likes, licenses, model types, and last modified dates for 650+ models.

Fonte: https://huggingface.co/api/modelsLicença: Public API, no authentication required

Ollama Registry

Semanal

Locally-runnable models · model names, sizes, quantization options for on-device inference.

Fonte: https://ollama.com/api/tagsLicença: Public API

Official Provider Reports

No lançamento

Benchmark scores published by model providers (Anthropic, OpenAI, Google, Meta, etc.) in model cards and technical reports.

Licença: Public

Mostramos as notas exatamente como reportadas pela fonte. Não ajustamos, ponderamos nem normalizamos para comparação entre benchmarks, a menos que esteja explicitamente indicado. Cada nota inclui link para sua fonte quando disponível.

Quando um modelo tem múltiplas notas no mesmo benchmark (ex: configurações diferentes de avaliação), usamos a nota oficial publicada pelo provedor do modelo. Se não existe nota oficial, usamos a avaliação independente mais recente.

A coluna "Média" no pódio é uma média aritmética simples de todos os benchmarks onde o modelo foi testado. É um sinal aproximado, não um ranking definitivo. Modelos testados em mais benchmarks podem ter médias mais baixas por estarem expostos a testes mais difíceis.

Todos os preços vêm da API pública do OpenRouter e representam o provedor principal de cada modelo. Os preços são exibidos por 1 milhão de tokens. Rastreamos 9 tipos de preços: entrada, saída, leitura de cache, escrita de cache, imagem, áudio, raciocínio interno, busca web e taxas por requisição.

Os preços são verificados diariamente. Quando detectamos uma mudança, o novo preço é registrado com timestamp. Dados históricos de preços são armazenados mas ainda não são exibidos.

A disponibilidade dos provedores é medida enviando requisições leves de checagem ao endpoint de cada provedor a cada 60 segundos a partir de US-East. Registramos tempo de resposta (latência) e código HTTP. Um provedor é marcado como "degradado" se a latência média ultrapassar 2x sua baseline de 30 dias, e "fora do ar" se as requisições falharem de forma consistente.

A porcentagem de uptime é calculada numa janela móvel de 30 dias. Isso reflete a disponibilidade do endpoint de API, não de cada modelo individual.

Um modelo é marcado como "Código Aberto" se seus pesos estão disponíveis publicamente sob uma licença aprovada pela OSI (Apache 2.0, MIT) ou uma licença comunitária permissiva (Llama Community License). Modelos com "pesos abertos" sob licenças restritivas são marcados separadamente.

Tipo de dadoFrequência
Preços de APIDiária
Status dos provedoresA cada 60 segundos
Notas de benchmarkNo lançamento + varredura semanal
Servidores MCPDiária
GitHub Stars/ForksDiária
Diretório de modelosDiária (via OpenRouter)

Achou um erro nos dados? Abra uma issue no nosso GitHub ou mande mensagem no Twitter @BenchGecko. Levamos precisão de dados a sério e corrigimos erros em até 24 horas.

Feito pela equipe BenchGecko. Alimentado por dados do ecossistema aberto de IA.