Metodologia
Come raccogliamo i dati, cosa monitoriamo e con quale frequenza aggiorniamo.
Fonti dei dati
OpenRouter API
GiornalieraModel pricing (9 tiers: input, output, cache read/write, reasoning, image, audio, web search, per-request), context windows, modalities, supported parameters, deprecation dates.
Epoch AI
SettimanaleBenchmark scores across 40+ benchmarks for 168+ models. Normalized 0-1 scores. Training compute and cost data for 3,200+ models.
SWE-bench
SettimanaleSoftware engineering task resolution rates across 6 leaderboard variants (Verified, Lite, Full, bash-only, Multilingual, Multimodal). Cost per instance. Open-source flags.
MCP Registry
Giornaliera4,000+ MCP server listings with package info, transport types, and repository links.
HuggingFace
SettimanaleModel metadata · parameter counts, downloads, likes, licenses, model types, and last modified dates for 650+ models.
Ollama Registry
SettimanaleLocally-runnable models · model names, sizes, quantization options for on-device inference.
Official Provider Reports
A ogni rilascioBenchmark scores published by model providers (Anthropic, OpenAI, Google, Meta, etc.) in model cards and technical reports.
Punteggi benchmark
Riportiamo i punteggi esattamente come dichiarati dalla fonte originale. Non adeguiamo, ponderiamo o normalizziamo nulla per confronti tra benchmark diversi, salvo indicazione esplicita. Dove disponibile, ogni punteggio rimanda alla fonte primaria.
Quando un modello ha più punteggi per lo stesso benchmark (ad esempio con impostazioni di valutazione diverse), utilizziamo il punteggio ufficiale pubblicato dal produttore del modello. In mancanza di un punteggio ufficiale, utilizziamo la valutazione indipendente più recente.
Punteggio medio
La colonna "Media" nella classifica è una media aritmetica non ponderata di tutti i benchmark su cui il modello è stato testato. Si tratta di un'indicazione di massima, non di una classifica definitiva. I modelli testati su più benchmark possono risultare con medie inferiori perché esposti a test più difficili.
Prezzi
Tutti i prezzi provengono dall'API pubblica di OpenRouter e si riferiscono al provider principale disponibile per ciascun modello. I prezzi sono espressi per 1 milione di token. Monitoriamo 9 voci: input, output, lettura cache, scrittura cache, immagine, audio, ragionamento interno, ricerca web e tariffa per richiesta.
I prezzi vengono verificati quotidianamente. Quando rileviamo una variazione, il nuovo prezzo viene registrato con timestamp. Lo storico prezzi viene conservato ma al momento non è visualizzato.
Monitoraggio uptime
L'uptime dei provider si misura inviando richieste leggere all'endpoint API di ciascun provider ogni 60 secondi da US-East. Registriamo tempo di risposta (latenza) e codice di stato HTTP. Un provider risulta "degradato" se la latenza media supera di 2 volte la sua media di riferimento a 30 giorni, e "in interruzione" se le richieste falliscono in modo consecutivo.
La percentuale di uptime è calcolata su una finestra mobile di 30 giorni. Riflette la raggiungibilità degli endpoint API, non la disponibilità dei singoli modelli.
Classificazione Open Source
Un modello è classificato "Open Source" se i suoi pesi sono scaricabili e utilizzabili con licenza approvata OSI (Apache 2.0, MIT) o licenza comunitaria permissiva (Llama Community License). I modelli con "pesi aperti" sotto licenze restrittive sono contrassegnati a parte.
Frequenza di aggiornamento
| Tipo di dato | Frequenza |
|---|---|
| Prezzi API | Giornaliero |
| Stato dei provider | Ogni 60 secondi |
| Punteggi benchmark | A ogni rilascio + scansione settimanale |
| Server MCP | Giornaliero |
| Stelle/Fork GitHub | Giornaliero |
| Catalogo modelli | Giornaliero (da OpenRouter) |
Correzioni
Se trovate un errore nei nostri dati, aprite una issue nel repository GitHub o scriveteci su Twitter @BenchGecko. Prendiamo la precisione dei dati molto sul serio e correggiamo gli errori entro 24 ore.
A cura del team BenchGecko. Basato sui dati dell'ecosistema IA aperto.