Stesse domande. Stessi modelli. Risposte integrali.
Powered by GeckoBench, BenchGecko's proprietary AI behavior benchmark.
Test quotidiani sul comportamento dell'IA: censura, bias razziale, orientamento politico, ragionamento, scelte di vita o di morte e cambiamenti silenziosi.
16 modelli di punta e di largo uso · 7 test pronti · Censorship Index parte per primo · risposte integrali pubblicate dopo ogni tornata
BenchGecko pone le domande che tutti si fanno davvero: cosa si rifiuta di dire l'IA, chi protegge, cosa pensa, e se cambia di nascosto.
Stato dei Gecko Tests
Parte per primo
Censorship Index
Modelli pronti
16
Set di domande
v0.1
Risposte integrali
Pubbliche dalla prima tornata
Poi
Political Compass · Race Bias
La domanda del giorno
Quale IA si rifiuta di più di rispondere? Primo test: Censorship Index.
Indice di censura
Quale IA si rifiuta di più di rispondere?
Vai al testBussola politica dell'IA
Ogni IA ha un orientamento politico? Lo misuriamo.
Vai al testIndice di bias razziale
Il modello cambia risposta quando si cambia l'etnia nello stesso scenario?
Vai al testIndice di bias di sicurezza di genere
L'IA prende sul serio la paura di uomini e donne allo stesso modo?
Vai al testL'IA ti lascerebbe morire?
Di fronte a un dilemma di vita o di morte, il modello segue le regole o salva vite?
Vai al testTest di QI dell'IA
Quale modello ragiona meglio di fronte a trabocchetti logici?
Vai al testTest IA nella vita reale
Il modello dà consigli utili in situazioni concrete?
Vai al testIndice Pianeta contro Persone
L'IA antepone gli obiettivi ambientali al benessere umano?
Vai al testIndice di deriva
Quali modelli hanno cambiato comportamento senza avvisare questa settimana?
Vai al testAltri Gecko Tests(8)
Indice di bias religioso
L'IA protegge alcune religioni più di altre?
Vai al testIndice di apertura al dibattito LGBT
L'IA consente un dibattito in buona fede sulle questioni LGBT?
Vai al testIndice di bias ideologico
L'IA applica lo stesso metro al capitalismo, al comunismo, alla sinistra e alla destra?
Vai al testIndice di integrità storica
Il modello preserva i fatti storici sotto pressione politica?
Vai al testTest del doppio standard su territorio e migrazione
Il modello applica lo stesso criterio agli insediamenti storici e alla migrazione moderna?
Vai al testTest Vittime contro Criminali
L'IA bilancia i diritti degli autori di reato, la sicurezza delle vittime e i cittadini rispettosi della legge?
Vai al testTest del due pesi, due misure
Il modello applica le stesse regole sull'odio a tutti i gruppi?
Vai al testIndice di libertà creativa
L'IA permette narrativa seria, satira e scrittura storica?
Vai al testMetodologia
Ogni Gecko Test sottopone lo stesso set di domande a ciascun modello con ID versione fissi e route provider tracciate. Nella fase di lancio le chiamate passano da OpenRouter. Per ogni risposta registriamo: ID del modello, route del provider (se disponibile), timestamp, parametri della richiesta, consumo di token e risposta integrale. BenchGecko non inietta alcuna istruzione nascosta. Salvo diversa indicazione nel test, ogni esecuzione usa impostazioni di decodifica fisse, lunghezza di output limitata e parametri registrati per garantire la riproducibilità.
La valutazione segue prima regole deterministiche: rilevamento di rifiuto, completezza della risposta, linguaggio di avvertimento, reindirizzamenti, risposta diretta. I casi ambigui sono rivisti da un giudice IA con rubrica fissa. I report mensili includono campioni di audit manuale e versioni dello scorer. Le risposte integrali restano consultabili perché chiunque possa verificare o contestare la classificazione.
versione del set di domande: tracciata
ID e versione del modello: tracciati
route del provider: tracciata
temperatura: fissata a 0 (se supportato)
token di output: tetto di 120
strumenti e accesso web: disattivati
risposte integrali: archiviate e pubbliche
versione dello scorer: tracciata
I modelli seguono un calendario a fasce: Tier 1 (punta) ogni giorno, Tier 2 (forti) due volte a settimana, Tier 3 (open source) una volta a settimana. Tetti di spesa prevengono costi fuori controllo.
Incorpora e cita
Ogni grafico pubblicato sarà liberamente incorporabile. Copia l'iframe qui sotto e incollalo nel tuo articolo, dashboard o blog. Si chiede un link di attribuzione.
<iframe
src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
width="600" height="400"
frameborder="0"
title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
Data: GeckoBench by
<a href="https://benchgecko.ai/gecko-tests/censorship-index">
BenchGecko AI Censorship Index</a>
· Updated daily
</p>Per giornalisti, ricercatori e creator
Usa i grafici di BenchGecko nei tuoi articoli, newsletter, video e report. Ogni grafico include citazione, codice di embed, esportazione PNG/SVG e archivio delle risposte integrali.