#					Benchmark
1	Claude Mythos Preview	100.0	—	1000K	14
2	Qwen3.5 397B A17B	96.3	$0.39	262K	11
3	DeepSeek V3.2 Speciale	95.2	$0.40	164K	9
4	GPT-5.4 Pro	93.0	$30.00	1050K	8
5	GPT-5.1-Codex-Max	91.2	$1.25	400K	8
6	Gemini 3.1 Pro Preview	90.0	$2.00	1049K	23
7	Step 3.5 Flash	89.5	$0.10	262K	10
8	GPT-5 Chat	89.0	$1.25	128K	7
9	Qwen3.6 Plus	88.7	$0.33	1000K	11
10	DeepSeek R1 Distill Qwen 14B	88.3	—	—	11
11	HA Qwen2.5 72B Instruct Abliterated	87.5	—	—	6
12	GLM 5.1	87.0	$1.05	203K	12
13	GPT-5.2-Codex	85.4	$1.75	400K	9
14	Claude Instant	84.6	—	—	4
15	DeepSeek-V2 (MoE-236B, May 2024)	84.4	—	—	7
16	GPT-5.4	83.4	$2.50	1050K	16
17	Claude Opus 4.6 (Fast)	83.3	$30.00	1000K	12
18	GPT-5.1-Codex	82.8	$1.25	400K	8
19	MiMo-V2-Flash	81.7	$0.09	262K	11
20	Qwen2.5 32B Instruct	81.3	—	—	7

Lo Stack · 10 livelli dati

Modelli

Benchmark, prezzo, contesto · ogni modello di frontiera

976 monitorati

Provider

Matrice di disponibilità su tutti i provider di inferenza IA

268 monitorati

Agenti

SWE-bench · MLE-bench · OSWorld e altri

165 monitorati

Benchmark

Evoluzione dei punteggi su tutti i principali benchmark

128 monitorati

Economia

Indice Bolla · valutazioni · round di investimento · capitalizzazione

71 aziende

Se ne parla

Monitoraggio dell'attenzione stile Kaito su tutti i segnali

93 entità

Infrastruttura

Chip · fonderie · memoria · sistemi · energia

6 indici

Prezzi

Arbitraggio · sostituti · tracker piano gratuito

Live

Risorse

251 termini · glossario · percorsi di apprendimento

251 termini

Confronta

Confronto universale · modelli · agenti · provider

15+ percorsi

Risorse IA

Tutti i percorsi →

Percorso · 7 termini

The AI Bubble Explained

Seven terms that decode whether AI is overpriced, fairly priced, or criminally underpriced. Read in order.

Percorso · 6 termini

Pick an AI Model

Six terms to go from "I need an AI" to "here is the cheapest model that meets my spec."

Percorso · 7 termini

From Sand to Model

The AI supply chain in 7 terms · foundry, memory, chip, system, datacenter, provider, API.

Cerca 293 termini IA · dai transformer all'attention premiumApri →

In evidenza

Il Polso

Salute dell'ecosistema IA · composito 0-100

Vedi grafico completo →

Indice Bolla IA

Lettura attuale vs picco dot-com

Vedi grafico completo →

Se ne parla

Share of voice tra i modelli

Vedi grafico completo →

Classifica

Top modelli per punteggio benchmark medio

Vedi grafico completo →

Banda HBM

Indice di tensione dell'offerta di memoria

Vedi grafico completo →

Capex parabolico

Traiettoria capex IA degli hyperscaler

Vedi grafico completo →

Metodologia · FAQ · Freschezza

Metodologia completa →

Con quale frequenza vengono aggiornati i dati di BenchGecko?›

Modelli e benchmark si aggiornano quotidianamente dalle fonti primarie. I prezzi vengono raccolti in continuo dalle API di ogni provider. I segnali di attenzione sono aggregati settimanalmente. Il Polso viene ricalcolato alle 00:00 UTC.

Cos'è Il Polso?›

Un punteggio composito da 0 a 100 sulla salute dell'economia IA. Combina l'Indice Bolla inverso, la velocità dei benchmark, la compressione dei prezzi, la diversità dell'attenzione e la tensione della catena di approvvigionamento in un unico numero. Più basso è, più sano è.

Come vengono normalizzati i punteggi benchmark?›

Ogni benchmark viene normalizzato min-max sull'intero insieme di modelli valutati. Le classifiche calcolano la media dei punteggi normalizzati su almeno 3 benchmark per modello, per evitare di sovra-ponderare un singolo test.

Da dove arrivano i dati sui prezzi?›

Dalle API dei provider · OpenRouter, OpenAI, Anthropic, Google, xAI, DeepSeek, Mistral e altri. Ogni snapshot viene salvato con attribuzione della fonte nella pagina di dettaglio del modello.

Posso citare i dati di BenchGecko?›

Sì. Ogni pagina include una barra Condividi e Cita con formati APA, MLA, BibTeX, Chicago e testo semplice. L'attribuzione è obbligatoria nel piano API gratuito e consigliata ovunque.

Fonti ·OpenRouterEpoch AISWE-benchMCP RegistryChatbot ArenaHuggingFaceLiveBenchArtificial AnalysisSEALAider

Aggiornato 2h fa · 10+ fonti autorevoli · zero contenuto editoriale