Metodologia
Como coletamos dados, o que rastreamos e com que frequência atualizamos.
Fontes de dados
OpenRouter API
DiáriaModel pricing (9 tiers: input, output, cache read/write, reasoning, image, audio, web search, per-request), context windows, modalities, supported parameters, deprecation dates.
Epoch AI
SemanalBenchmark scores across 40+ benchmarks for 168+ models. Normalized 0-1 scores. Training compute and cost data for 3,200+ models.
SWE-bench
SemanalSoftware engineering task resolution rates across 6 leaderboard variants (Verified, Lite, Full, bash-only, Multilingual, Multimodal). Cost per instance. Open-source flags.
MCP Registry
Diária4,000+ MCP server listings with package info, transport types, and repository links.
HuggingFace
SemanalModel metadata — parameter counts, downloads, likes, licenses, model types, and last modified dates for 650+ models.
Ollama Registry
SemanalLocally-runnable models — model names, sizes, quantization options for on-device inference.
Official Provider Reports
No lançamentoBenchmark scores published by model providers (Anthropic, OpenAI, Google, Meta, etc.) in model cards and technical reports.
Pontuações de benchmark
Exibimos as pontuações exatamente como reportadas pela fonte. As pontuações não são ajustadas, ponderadas ou normalizadas para comparação entre benchmarks, a menos que explicitamente indicado. Cada pontuação inclui link para sua fonte quando disponível.
Quando um modelo tem múltiplas pontuações para o mesmo benchmark (ex: diferentes configurações de avaliação), usamos a pontuação oficial publicada pelo provedor do modelo. Se não existe pontuação oficial, usamos a avaliação independente mais recente.
Pontuação média
A coluna "Média" no ranking é uma média aritmética não ponderada de todos os benchmarks onde o modelo foi testado. Este é um sinal aproximado, não um ranking definitivo. Modelos testados em mais benchmarks podem ter médias mais baixas devido à exposição a testes mais difíceis.
Preços
Todos os preços são obtidos da API pública do OpenRouter e representam o provedor principal disponível para cada modelo. Os preços são mostrados por 1 milhão de tokens. Rastreamos 9 tipos de preços: entrada, saída, leitura de cache, escrita de cache, imagem, áudio, raciocínio interno, busca web e taxas por requisição.
Os preços são verificados diariamente. Quando uma mudança de preço é detectada, o novo preço é registrado com timestamp. Dados históricos de preços são armazenados mas não exibidos atualmente.
Monitoramento de disponibilidade
A disponibilidade dos provedores é medida enviando requisições leves de verificação ao endpoint da API de cada provedor a cada 60 segundos a partir de US-East. Registramos tempo de resposta (latência) e código de status HTTP. Um provedor é marcado como "degradado" se a latência média exceder 2x sua linha de base de 30 dias, e "indisponível" se as requisições falharem consistentemente.
A porcentagem de disponibilidade é calculada em uma janela móvel de 30 dias. Isso reflete a disponibilidade do endpoint da API, não a disponibilidade individual do modelo.
Classificação de código aberto
Um modelo é marcado como "Código Aberto" se seus pesos estão publicamente disponíveis para download e uso sob uma licença aprovada pela OSI (Apache 2.0, MIT) ou uma licença comunitária permissiva (Llama Community License). Modelos com "pesos abertos" sob licenças restritivas são marcados separadamente.
Frequência de atualização
| Tipo de dados | Frequência |
|---|---|
| Preços de API | Diária |
| Disponibilidade do provedor | A cada 60 segundos |
| Pontuações de benchmark | No lançamento + varredura semanal |
| Servidores MCP | Diária |
| GitHub Stars/Forks | Diária |
| Diretório de modelos | Diária (do OpenRouter) |
Correções
Se você encontrar um erro em nossos dados, por favor abra uma issue em nosso repositório GitHub ou entre em contato no Twitter @BenchGecko. Levamos a precisão dos dados a sério e corrigiremos erros dentro de 24 horas.
Construído pela equipe BenchGecko. Alimentado por dados do ecossistema aberto de IA.