Metodologia
Como coletamos dados, o que rastreamos e com que frequência atualizamos.
Fontes de dados
OpenRouter API
DiáriaModel pricing (9 tiers: input, output, cache read/write, reasoning, image, audio, web search, per-request), context windows, modalities, supported parameters, deprecation dates.
Epoch AI
SemanalBenchmark scores across 40+ benchmarks for 168+ models. Normalized 0-1 scores. Training compute and cost data for 3,200+ models.
SWE-bench
SemanalSoftware engineering task resolution rates across 6 leaderboard variants (Verified, Lite, Full, bash-only, Multilingual, Multimodal). Cost per instance. Open-source flags.
MCP Registry
Diária4,000+ MCP server listings with package info, transport types, and repository links.
HuggingFace
SemanalModel metadata · parameter counts, downloads, likes, licenses, model types, and last modified dates for 650+ models.
Ollama Registry
SemanalLocally-runnable models · model names, sizes, quantization options for on-device inference.
Official Provider Reports
No lançamentoBenchmark scores published by model providers (Anthropic, OpenAI, Google, Meta, etc.) in model cards and technical reports.
Notas de benchmark
Mostramos as notas exatamente como reportadas pela fonte. Não ajustamos, ponderamos nem normalizamos para comparação entre benchmarks, a menos que esteja explicitamente indicado. Cada nota inclui link para sua fonte quando disponível.
Quando um modelo tem múltiplas notas no mesmo benchmark (ex: configurações diferentes de avaliação), usamos a nota oficial publicada pelo provedor do modelo. Se não existe nota oficial, usamos a avaliação independente mais recente.
Nota média
A coluna "Média" no pódio é uma média aritmética simples de todos os benchmarks onde o modelo foi testado. É um sinal aproximado, não um ranking definitivo. Modelos testados em mais benchmarks podem ter médias mais baixas por estarem expostos a testes mais difíceis.
Preços
Todos os preços vêm da API pública do OpenRouter e representam o provedor principal de cada modelo. Os preços são exibidos por 1 milhão de tokens. Rastreamos 9 tipos de preços: entrada, saída, leitura de cache, escrita de cache, imagem, áudio, raciocínio interno, busca web e taxas por requisição.
Os preços são verificados diariamente. Quando detectamos uma mudança, o novo preço é registrado com timestamp. Dados históricos de preços são armazenados mas ainda não são exibidos.
Monitoramento de disponibilidade
A disponibilidade dos provedores é medida enviando requisições leves de checagem ao endpoint de cada provedor a cada 60 segundos a partir de US-East. Registramos tempo de resposta (latência) e código HTTP. Um provedor é marcado como "degradado" se a latência média ultrapassar 2x sua baseline de 30 dias, e "fora do ar" se as requisições falharem de forma consistente.
A porcentagem de uptime é calculada numa janela móvel de 30 dias. Isso reflete a disponibilidade do endpoint de API, não de cada modelo individual.
Classificação open source
Um modelo é marcado como "Código Aberto" se seus pesos estão disponíveis publicamente sob uma licença aprovada pela OSI (Apache 2.0, MIT) ou uma licença comunitária permissiva (Llama Community License). Modelos com "pesos abertos" sob licenças restritivas são marcados separadamente.
Frequência de atualização
| Tipo de dado | Frequência |
|---|---|
| Preços de API | Diária |
| Status dos provedores | A cada 60 segundos |
| Notas de benchmark | No lançamento + varredura semanal |
| Servidores MCP | Diária |
| GitHub Stars/Forks | Diária |
| Diretório de modelos | Diária (via OpenRouter) |
Correções
Achou um erro nos dados? Abra uma issue no nosso GitHub ou mande mensagem no Twitter @BenchGecko. Levamos precisão de dados a sério e corrigimos erros em até 24 horas.
Feito pela equipe BenchGecko. Alimentado por dados do ecossistema aberto de IA.