Gecko Tests

Stesse domande. Stessi modelli. Risposte integrali.

Test quotidiani sul comportamento dell'IA: censura, bias razziale, orientamento politico, ragionamento, scelte di vita o di morte e cambiamenti silenziosi.

16 modelli di punta e di largo uso · 7 test pronti · Censorship Index parte per primo · risposte integrali pubblicate dopo ogni tornata

BenchGecko pone le domande che tutti si fanno davvero: cosa si rifiuta di dire l'IA, chi protegge, cosa pensa, e se cambia di nascosto.

Stato dei Gecko Tests

Parte per primo

Censorship Index

Modelli pronti

Set di domande

v0.1

Risposte integrali

Pubbliche dalla prima tornata

Poi

Political Compass · Race Bias

La domanda del giorno

Quale IA si rifiuta di più di rispondere? Primo test: Censorship Index.

Gecko Refusal Index

Beta · launching first

Indice di censura

Quale IA si rifiuta di più di rispondere?

Vai al test

Gecko Worldview Index

Preview

Bussola politica dell'IA

Ogni IA ha un orientamento politico? Lo misuriamo.

Vai al test

Gecko Symmetry Index

Preview

Indice di bias razziale

Il modello cambia risposta quando si cambia l'etnia nello stesso scenario?

Vai al test

Gecko Situation Index

Preview

Indice di bias di sicurezza di genere

L'IA prende sul serio la paura di uomini e donne allo stesso modo?

Vai al test

Gecko Moral Tradeoff Index

Preview

L'IA ti lascerebbe morire?

Di fronte a un dilemma di vita o di morte, il modello segue le regole o salva vite?

Vai al test

Gecko Reasoning Battery

Preview

Test di QI dell'IA

Quale modello ragiona meglio di fronte a trabocchetti logici?

Vai al test

Gecko Situation Index

Preview

Test IA nella vita reale

Il modello dà consigli utili in situazioni concrete?

Vai al test

Gecko Environmental Values Index

Preview

Indice Pianeta contro Persone

L'IA antepone gli obiettivi ambientali al benessere umano?

Vai al test

Gecko Drift Index

Coming after first runs

Indice di deriva

Quali modelli hanno cambiato comportamento senza avvisare questa settimana?

Vai al test

Altri Gecko Tests(8)

Gecko Symmetry Index

Preview

Indice di bias religioso

L'IA protegge alcune religioni più di altre?

Vai al test

Gecko Symmetry Index

Preview

Indice di apertura al dibattito LGBT

L'IA consente un dibattito in buona fede sulle questioni LGBT?

Vai al test

Gecko Worldview Index

Preview

Indice di bias ideologico

L'IA applica lo stesso metro al capitalismo, al comunismo, alla sinistra e alla destra?

Vai al test

Gecko Factual Integrity Index

Preview

Indice di integrità storica

Il modello preserva i fatti storici sotto pressione politica?

Vai al test

Gecko Civic Fairness Index

Preview

Test del doppio standard su territorio e migrazione

Il modello applica lo stesso criterio agli insediamenti storici e alla migrazione moderna?

Vai al test

Gecko Civic Fairness Index

Preview

Test Vittime contro Criminali

L'IA bilancia i diritti degli autori di reato, la sicurezza delle vittime e i cittadini rispettosi della legge?

Vai al test

Gecko Consistency Index

Sensitive preview

Test del due pesi, due misure

Il modello applica le stesse regole sull'odio a tutti i gruppi?

Vai al test

Gecko Creative Boundary Index

Preview

Indice di libertà creativa

L'IA permette narrativa seria, satira e scrittura storica?

Vai al test

Metodologia

Ogni Gecko Test sottopone lo stesso set di domande a ciascun modello con ID versione fissi e route provider tracciate. Nella fase di lancio le chiamate passano da OpenRouter. Per ogni risposta registriamo: ID del modello, route del provider (se disponibile), timestamp, parametri della richiesta, consumo di token e risposta integrale. BenchGecko non inietta alcuna istruzione nascosta. Salvo diversa indicazione nel test, ogni esecuzione usa impostazioni di decodifica fisse, lunghezza di output limitata e parametri registrati per garantire la riproducibilità.

La valutazione segue prima regole deterministiche: rilevamento di rifiuto, completezza della risposta, linguaggio di avvertimento, reindirizzamenti, risposta diretta. I casi ambigui sono rivisti da un giudice IA con rubrica fissa. I report mensili includono campioni di audit manuale e versioni dello scorer. Le risposte integrali restano consultabili perché chiunque possa verificare o contestare la classificazione.

versione del set di domande: tracciata

ID e versione del modello: tracciati

route del provider: tracciata

temperatura: fissata a 0 (se supportato)

token di output: tetto di 120

strumenti e accesso web: disattivati

risposte integrali: archiviate e pubbliche

versione dello scorer: tracciata

I modelli seguono un calendario a fasce: Tier 1 (punta) ogni giorno, Tier 2 (forti) due volte a settimana, Tier 3 (open source) una volta a settimana. Tetti di spesa prevengono costi fuori controllo.

Incorpora e cita

Ogni grafico pubblicato sarà liberamente incorporabile. Copia l'iframe qui sotto e incollalo nel tuo articolo, dashboard o blog. Si chiede un link di attribuzione.

<iframe
  src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data: GeckoBench by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">
    BenchGecko AI Censorship Index</a>
  · Updated daily
</p>

Per giornalisti, ricercatori e creator

Usa i grafici di BenchGecko nei tuoi articoli, newsletter, video e report. Ogni grafico include citazione, codice di embed, esportazione PNG/SVG e archivio delle risposte integrali.

Consulta la metodologia Richiedi un dataset

Domande frequenti

Test giornalieri ideati da BenchGecko per misurare come si comportano i modelli di IA di punta. Valutiamo censura, bias razziale, inclinazioni politiche, capacità di ragionamento, dilemmi morali e cambiamenti silenziosi di comportamento.

Stesse domande. Stessi modelli. Risposte integrali.

Stato dei Gecko Tests

Indice di censura

Bussola politica dell'IA

Indice di bias razziale

Indice di bias di sicurezza di genere

L'IA ti lascerebbe morire?

Test di QI dell'IA

Test IA nella vita reale

Indice Pianeta contro Persone

Indice di deriva

Indice di bias religioso

Indice di apertura al dibattito LGBT

Indice di bias ideologico

Indice di integrità storica

Test del doppio standard su territorio e migrazione

Test Vittime contro Criminali

Test del due pesi, due misure

Indice di libertà creativa

Metodologia

Incorpora e cita

Per giornalisti, ricercatori e creator

Domande frequenti

Grafici

Dati

Risorse