Metodologia

Como coletamos dados, o que rastreamos e com que frequência atualizamos.

Fontes de dados

OpenRouter API

Diária

Model pricing (9 tiers: input, output, cache read/write, reasoning, image, audio, web search, per-request), context windows, modalities, supported parameters, deprecation dates.

Fonte: https://openrouter.ai/api/v1/modelsLicença: Public API, no authentication required

Epoch AI

Semanal

Benchmark scores across 40+ benchmarks for 168+ models. Normalized 0-1 scores. Training compute and cost data for 3,200+ models.

Fonte: https://epoch.ai/dataLicença: CC-BY 4.0

SWE-bench

Semanal

Software engineering task resolution rates across 6 leaderboard variants (Verified, Lite, Full, bash-only, Multilingual, Multimodal). Cost per instance. Open-source flags.

Fonte: https://www.swebench.comLicença: Open data

MCP Registry

Diária

4,000+ MCP server listings with package info, transport types, and repository links.

Fonte: https://registry.modelcontextprotocol.ioLicença: Open API

HuggingFace

Semanal

Model metadata · parameter counts, downloads, likes, licenses, model types, and last modified dates for 650+ models.

Fonte: https://huggingface.co/api/modelsLicença: Public API, no authentication required

Ollama Registry

Semanal

Locally-runnable models · model names, sizes, quantization options for on-device inference.

Fonte: https://ollama.com/api/tagsLicença: Public API

Official Provider Reports

No lançamento

Benchmark scores published by model providers (Anthropic, OpenAI, Google, Meta, etc.) in model cards and technical reports.

Licença: Public

Notas de benchmark

Mostramos as notas exatamente como reportadas pela fonte. Não ajustamos, ponderamos nem normalizamos para comparação entre benchmarks, a menos que esteja explicitamente indicado. Cada nota inclui link para sua fonte quando disponível.

Quando um modelo tem múltiplas notas no mesmo benchmark (ex: configurações diferentes de avaliação), usamos a nota oficial publicada pelo provedor do modelo. Se não existe nota oficial, usamos a avaliação independente mais recente.

Nota média

A coluna "Média" no pódio é uma média aritmética simples de todos os benchmarks onde o modelo foi testado. É um sinal aproximado, não um ranking definitivo. Modelos testados em mais benchmarks podem ter médias mais baixas por estarem expostos a testes mais difíceis.

Preços

Todos os preços vêm da API pública do OpenRouter e representam o provedor principal de cada modelo. Os preços são exibidos por 1 milhão de tokens. Rastreamos 9 tipos de preços: entrada, saída, leitura de cache, escrita de cache, imagem, áudio, raciocínio interno, busca web e taxas por requisição.

Os preços são verificados diariamente. Quando detectamos uma mudança, o novo preço é registrado com timestamp. Dados históricos de preços são armazenados mas ainda não são exibidos.

Monitoramento de disponibilidade

A disponibilidade dos provedores é medida enviando requisições leves de checagem ao endpoint de cada provedor a cada 60 segundos a partir de US-East. Registramos tempo de resposta (latência) e código HTTP. Um provedor é marcado como "degradado" se a latência média ultrapassar 2x sua baseline de 30 dias, e "fora do ar" se as requisições falharem de forma consistente.

A porcentagem de uptime é calculada numa janela móvel de 30 dias. Isso reflete a disponibilidade do endpoint de API, não de cada modelo individual.

Classificação open source

Um modelo é marcado como "Código Aberto" se seus pesos estão disponíveis publicamente sob uma licença aprovada pela OSI (Apache 2.0, MIT) ou uma licença comunitária permissiva (Llama Community License). Modelos com "pesos abertos" sob licenças restritivas são marcados separadamente.

Frequência de atualização

Tipo de dado	Frequência
Preços de API	Diária
Status dos provedores	A cada 60 segundos
Notas de benchmark	No lançamento + varredura semanal
Servidores MCP	Diária
GitHub Stars/Forks	Diária
Diretório de modelos	Diária (via OpenRouter)

Correções

Achou um erro nos dados? Abra uma issue no nosso GitHub ou mande mensagem no Twitter @BenchGecko. Levamos precisão de dados a sério e corrigimos erros em até 24 horas.

Feito pela equipe BenchGecko. Alimentado por dados do ecossistema aberto de IA.