Test di IA ogni giorno · dati sul comportamento · grafici ripubblicati ovunque
Powered by GeckoBench · BenchGecko's proprietary AI behavior benchmark.
Ogni giorno facciamo le stesse domande a tutti i modelli di punta. Risposte integrali. Grafici aperti. Dati riutilizzabili. Lo strato di trasparenza sull'IA che nessun altro sta costruendo.
GeckoBench
The benchmark engine behind Gecko Tests. 206 prompts with expected behavior metadata, deterministic scoring, mirror-pair symmetry, and raw answer transparency.
206
Prompts
16
Models
18
Test families
Cos'è BenchGecko Labs in pratica?
I benchmark tradizionali misurano cosa sa fare un modello. Labs misura come si comporta. Tracciamo la censura, i bias, le inclinazioni politiche, i dilemmi morali e i cambiamenti silenziosi che i benchmark classici non rilevano nemmeno.
Ogni test pone le stesse domande a ogni modello, tutti i giorni. I risultati vengono valutati, graficati e pubblicati con tutte le risposte integrali. Nessuna scatola nera. Nessuna opinione editoriale. Solo dati.
Ogni grafico si incorpora con una riga di codice. Ogni dataset si cita in formato APA e BibTeX. Pensato per giornalisti, ricercatori e chiunque voglia sapere cosa fa davvero l'IA.
Test in primo piano
Indice di censura
Quale IA si rifiuta di più di rispondere?
Vai al testBussola politica dell'IA
Ogni IA ha un orientamento politico? Lo misuriamo.
Vai al testIndice di bias razziale
Il modello cambia risposta quando si cambia l'etnia nello stesso scenario?
Vai al testL'IA ti lascerebbe morire?
Di fronte a un dilemma di vita o di morte, il modello segue le regole o salva vite?
Vai al testTest di QI dell'IA
Quale modello ragiona meglio di fronte a trabocchetti logici?
Vai al testTest IA nella vita reale
Il modello dà consigli utili in situazioni concrete?
Vai al test