Beta

Metodologia

Como coletamos dados, o que rastreamos e com que frequência atualizamos.

Fontes de dados

OpenRouter API

Diária

Model pricing (9 tiers: input, output, cache read/write, reasoning, image, audio, web search, per-request), context windows, modalities, supported parameters, deprecation dates.

Fonte: https://openrouter.ai/api/v1/modelsLicença: Public API, no authentication required

Epoch AI

Semanal

Benchmark scores across 40+ benchmarks for 168+ models. Normalized 0-1 scores. Training compute and cost data for 3,200+ models.

Fonte: https://epoch.ai/dataLicença: CC-BY 4.0

SWE-bench

Semanal

Software engineering task resolution rates across 6 leaderboard variants (Verified, Lite, Full, bash-only, Multilingual, Multimodal). Cost per instance. Open-source flags.

Fonte: https://www.swebench.comLicença: Open data

MCP Registry

Diária

4,000+ MCP server listings with package info, transport types, and repository links.

Fonte: https://registry.modelcontextprotocol.ioLicença: Open API

HuggingFace

Semanal

Model metadata — parameter counts, downloads, likes, licenses, model types, and last modified dates for 650+ models.

Fonte: https://huggingface.co/api/modelsLicença: Public API, no authentication required

Ollama Registry

Semanal

Locally-runnable models — model names, sizes, quantization options for on-device inference.

Fonte: https://ollama.com/api/tagsLicença: Public API

Official Provider Reports

No lançamento

Benchmark scores published by model providers (Anthropic, OpenAI, Google, Meta, etc.) in model cards and technical reports.

Licença: Public

Pontuações de benchmark

Exibimos as pontuações exatamente como reportadas pela fonte. As pontuações não são ajustadas, ponderadas ou normalizadas para comparação entre benchmarks, a menos que explicitamente indicado. Cada pontuação inclui link para sua fonte quando disponível.

Quando um modelo tem múltiplas pontuações para o mesmo benchmark (ex: diferentes configurações de avaliação), usamos a pontuação oficial publicada pelo provedor do modelo. Se não existe pontuação oficial, usamos a avaliação independente mais recente.

Pontuação média

A coluna "Média" no ranking é uma média aritmética não ponderada de todos os benchmarks onde o modelo foi testado. Este é um sinal aproximado, não um ranking definitivo. Modelos testados em mais benchmarks podem ter médias mais baixas devido à exposição a testes mais difíceis.

Preços

Todos os preços são obtidos da API pública do OpenRouter e representam o provedor principal disponível para cada modelo. Os preços são mostrados por 1 milhão de tokens. Rastreamos 9 tipos de preços: entrada, saída, leitura de cache, escrita de cache, imagem, áudio, raciocínio interno, busca web e taxas por requisição.

Os preços são verificados diariamente. Quando uma mudança de preço é detectada, o novo preço é registrado com timestamp. Dados históricos de preços são armazenados mas não exibidos atualmente.

Monitoramento de disponibilidade

A disponibilidade dos provedores é medida enviando requisições leves de verificação ao endpoint da API de cada provedor a cada 60 segundos a partir de US-East. Registramos tempo de resposta (latência) e código de status HTTP. Um provedor é marcado como "degradado" se a latência média exceder 2x sua linha de base de 30 dias, e "indisponível" se as requisições falharem consistentemente.

A porcentagem de disponibilidade é calculada em uma janela móvel de 30 dias. Isso reflete a disponibilidade do endpoint da API, não a disponibilidade individual do modelo.

Classificação de código aberto

Um modelo é marcado como "Código Aberto" se seus pesos estão publicamente disponíveis para download e uso sob uma licença aprovada pela OSI (Apache 2.0, MIT) ou uma licença comunitária permissiva (Llama Community License). Modelos com "pesos abertos" sob licenças restritivas são marcados separadamente.

Frequência de atualização

Tipo de dadosFrequência
Preços de APIDiária
Disponibilidade do provedorA cada 60 segundos
Pontuações de benchmarkNo lançamento + varredura semanal
Servidores MCPDiária
GitHub Stars/ForksDiária
Diretório de modelosDiária (do OpenRouter)

Correções

Se você encontrar um erro em nossos dados, por favor abra uma issue em nosso repositório GitHub ou entre em contato no Twitter @BenchGecko. Levamos a precisão dos dados a sério e corrigiremos erros dentro de 24 horas.

Construído pela equipe BenchGecko. Alimentado por dados do ecossistema aberto de IA.