BenchGecko Labs

Test IA giornalieri, dati comportamentali e grafici che la gente cita

Inviamo gli stessi prompt a ogni modello frontier, ogni giorno. Risposte grezze. Grafici pubblici. Dati incorporabili. Lo strato comportamentale IA che nessun altro sta costruendo.

I segnali live appariranno qui quando i Gecko Tests saranno attivi. Primo test: Censorship Index.

I benchmark tradizionali misurano le prestazioni di un modello. Labs misura il suo comportamento. Tracciamo schemi di censura, asimmetrie di bias, orientamenti politici, ragionamento morale e derive comportamentali che i benchmark standard ignorano completamente.

Ogni test invia gli stessi prompt a ogni modello, ogni giorno. I risultati vengono valutati, graficati e pubblicati con tutte le risposte grezze. Nessuna scatola nera. Nessun bias editoriale. Solo dati.

Ogni grafico è incorporabile con una riga di codice. Ogni dataset è citabile in formato APA e BibTeX. Pensato per giornalisti, ricercatori e chiunque segua come l'IA si comporta davvero.

BenchGecko Labs esegue test giornalieri proprietari su modelli IA per misurare censura, bias, orientamento politico, capacità di ragionamento, decisioni morali e derive comportamentali. Stessi prompt, stessi modelli, ogni giorno.