Test IA giornalieri, dati comportamentali e grafici che la gente cita
Inviamo gli stessi prompt a ogni modello frontier, ogni giorno. Risposte grezze. Grafici pubblici. Dati incorporabili. Lo strato comportamentale IA che nessun altro sta costruendo.
Segnale del giorno
I segnali live appariranno qui quando i Gecko Tests saranno attivi. Primo test: Censorship Index.
Cos'è BenchGecko Labs?
I benchmark tradizionali misurano le prestazioni di un modello. Labs misura il suo comportamento. Tracciamo schemi di censura, asimmetrie di bias, orientamenti politici, ragionamento morale e derive comportamentali che i benchmark standard ignorano completamente.
Ogni test invia gli stessi prompt a ogni modello, ogni giorno. I risultati vengono valutati, graficati e pubblicati con tutte le risposte grezze. Nessuna scatola nera. Nessun bias editoriale. Solo dati.
Ogni grafico è incorporabile con una riga di codice. Ogni dataset è citabile in formato APA e BibTeX. Pensato per giornalisti, ricercatori e chiunque segua come l'IA si comporta davvero.
Test in evidenza
Indice di censura
Quale IA rifiuta di più?
Vedi testIndice di bias razziale
Il modello tratta scenari identici con razze scambiate in modo diverso?
Vedi testBussola politica IA
Dove si colloca ogni modello IA politicamente?
Vedi testTest QI IA
Quale modello IA ragiona meglio?
Vedi test