Beta

Metodologia

Come raccogliamo i dati, cosa monitoriamo e con quale frequenza aggiorniamo.

OpenRouter API

Giornaliera

Model pricing (9 tiers: input, output, cache read/write, reasoning, image, audio, web search, per-request), context windows, modalities, supported parameters, deprecation dates.

Fonte: https://openrouter.ai/api/v1/modelsLicenza: Public API, no authentication required

Epoch AI

Settimanale

Benchmark scores across 40+ benchmarks for 168+ models. Normalized 0-1 scores. Training compute and cost data for 3,200+ models.

Fonte: https://epoch.ai/dataLicenza: CC-BY 4.0

SWE-bench

Settimanale

Software engineering task resolution rates across 6 leaderboard variants (Verified, Lite, Full, bash-only, Multilingual, Multimodal). Cost per instance. Open-source flags.

Fonte: https://www.swebench.comLicenza: Open data

MCP Registry

Giornaliera

4,000+ MCP server listings with package info, transport types, and repository links.

Fonte: https://registry.modelcontextprotocol.ioLicenza: Open API

HuggingFace

Settimanale

Model metadata · parameter counts, downloads, likes, licenses, model types, and last modified dates for 650+ models.

Fonte: https://huggingface.co/api/modelsLicenza: Public API, no authentication required

Ollama Registry

Settimanale

Locally-runnable models · model names, sizes, quantization options for on-device inference.

Fonte: https://ollama.com/api/tagsLicenza: Public API

Official Provider Reports

A ogni rilascio

Benchmark scores published by model providers (Anthropic, OpenAI, Google, Meta, etc.) in model cards and technical reports.

Licenza: Public

Riportiamo i punteggi esattamente come dichiarati dalla fonte originale. Non adeguiamo, ponderiamo o normalizziamo nulla per confronti tra benchmark diversi, salvo indicazione esplicita. Dove disponibile, ogni punteggio rimanda alla fonte primaria.

Quando un modello ha più punteggi per lo stesso benchmark (ad esempio con impostazioni di valutazione diverse), utilizziamo il punteggio ufficiale pubblicato dal produttore del modello. In mancanza di un punteggio ufficiale, utilizziamo la valutazione indipendente più recente.

La colonna "Media" nella classifica è una media aritmetica non ponderata di tutti i benchmark su cui il modello è stato testato. Si tratta di un'indicazione di massima, non di una classifica definitiva. I modelli testati su più benchmark possono risultare con medie inferiori perché esposti a test più difficili.

Tutti i prezzi provengono dall'API pubblica di OpenRouter e si riferiscono al provider principale disponibile per ciascun modello. I prezzi sono espressi per 1 milione di token. Monitoriamo 9 voci: input, output, lettura cache, scrittura cache, immagine, audio, ragionamento interno, ricerca web e tariffa per richiesta.

I prezzi vengono verificati quotidianamente. Quando rileviamo una variazione, il nuovo prezzo viene registrato con timestamp. Lo storico prezzi viene conservato ma al momento non è visualizzato.

L'uptime dei provider si misura inviando richieste leggere all'endpoint API di ciascun provider ogni 60 secondi da US-East. Registriamo tempo di risposta (latenza) e codice di stato HTTP. Un provider risulta "degradato" se la latenza media supera di 2 volte la sua media di riferimento a 30 giorni, e "in interruzione" se le richieste falliscono in modo consecutivo.

La percentuale di uptime è calcolata su una finestra mobile di 30 giorni. Riflette la raggiungibilità degli endpoint API, non la disponibilità dei singoli modelli.

Un modello è classificato "Open Source" se i suoi pesi sono scaricabili e utilizzabili con licenza approvata OSI (Apache 2.0, MIT) o licenza comunitaria permissiva (Llama Community License). I modelli con "pesi aperti" sotto licenze restrittive sono contrassegnati a parte.

Tipo di datoFrequenza
Prezzi APIGiornaliero
Stato dei providerOgni 60 secondi
Punteggi benchmarkA ogni rilascio + scansione settimanale
Server MCPGiornaliero
Stelle/Fork GitHubGiornaliero
Catalogo modelliGiornaliero (da OpenRouter)

Se trovate un errore nei nostri dati, aprite una issue nel repository GitHub o scriveteci su Twitter @BenchGecko. Prendiamo la precisione dei dati molto sul serio e correggiamo gli errori entro 24 ore.

A cura del team BenchGecko. Basato sui dati dell'ecosistema IA aperto.