Gecko Tests

Stesse domande. Stessi modelli. Risposte integrali.

Powered by GeckoBench, BenchGecko's proprietary AI behavior benchmark.

Test quotidiani sul comportamento dell'IA: censura, bias razziale, orientamento politico, ragionamento, scelte di vita o di morte e cambiamenti silenziosi.

16 modelli di punta e di largo uso · 7 test pronti · Censorship Index parte per primo · risposte integrali pubblicate dopo ogni tornata

BenchGecko pone le domande che tutti si fanno davvero: cosa si rifiuta di dire l'IA, chi protegge, cosa pensa, e se cambia di nascosto.

Parte per primo

Censorship Index

Modelli pronti

16

Set di domande

v0.1

Risposte integrali

Pubbliche dalla prima tornata

Poi

Political Compass · Race Bias

La domanda del giorno

Ogni Gecko Test sottopone lo stesso set di domande a ciascun modello con ID versione fissi e route provider tracciate. Nella fase di lancio le chiamate passano da OpenRouter. Per ogni risposta registriamo: ID del modello, route del provider (se disponibile), timestamp, parametri della richiesta, consumo di token e risposta integrale. BenchGecko non inietta alcuna istruzione nascosta. Salvo diversa indicazione nel test, ogni esecuzione usa impostazioni di decodifica fisse, lunghezza di output limitata e parametri registrati per garantire la riproducibilità.

La valutazione segue prima regole deterministiche: rilevamento di rifiuto, completezza della risposta, linguaggio di avvertimento, reindirizzamenti, risposta diretta. I casi ambigui sono rivisti da un giudice IA con rubrica fissa. I report mensili includono campioni di audit manuale e versioni dello scorer. Le risposte integrali restano consultabili perché chiunque possa verificare o contestare la classificazione.

versione del set di domande: tracciata

ID e versione del modello: tracciati

route del provider: tracciata

temperatura: fissata a 0 (se supportato)

token di output: tetto di 120

strumenti e accesso web: disattivati

risposte integrali: archiviate e pubbliche

versione dello scorer: tracciata

I modelli seguono un calendario a fasce: Tier 1 (punta) ogni giorno, Tier 2 (forti) due volte a settimana, Tier 3 (open source) una volta a settimana. Tetti di spesa prevengono costi fuori controllo.

Ogni grafico pubblicato sarà liberamente incorporabile. Copia l'iframe qui sotto e incollalo nel tuo articolo, dashboard o blog. Si chiede un link di attribuzione.

<iframe
  src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data: GeckoBench by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">
    BenchGecko AI Censorship Index</a>
  · Updated daily
</p>

Usa i grafici di BenchGecko nei tuoi articoli, newsletter, video e report. Ogni grafico include citazione, codice di embed, esportazione PNG/SVG e archivio delle risposte integrali.

Consulta la metodologiaRichiedi un dataset
Test giornalieri ideati da BenchGecko per misurare come si comportano i modelli di IA di punta. Valutiamo censura, bias razziale, inclinazioni politiche, capacità di ragionamento, dilemmi morali e cambiamenti silenziosi di comportamento.