Gecko Tests

Stessi prompt. Stessi modelli. Risposte grezze.

Test giornalieri sul comportamento IA che coprono censura, bias razziale, orientamento politico, QI, dilemmi morali e deriva dei modelli.

16 modelli frontier · 7 test · aggiornamento giornaliero · risposte pubbliche

Ogni Gecko Test invia prompt identici a ogni modello attraverso lo stesso gateway API (OpenRouter). Nessun prompt di sistema. Nessun aggiustamento della temperatura. Solo impostazioni predefinite.

Le risposte vengono classificate da scorer automatizzati con pattern di parole chiave e verifica da giudice IA. Ogni risposta grezza viene archiviata ed è accessibile pubblicamente per la verifica indipendente.

I modelli vengono testati secondo un calendario a livelli: Tier 1 (frontier) quotidianamente, Tier 2 (forti) due volte a settimana, Tier 3 (open source) settimanalmente. Guardie di budget prevengono costi fuori controllo.

Ogni grafico è incorporabile gratuitamente. Copia lo snippet iframe qui sotto e incollalo nel tuo articolo, dashboard o blog. Link di attribuzione richiesto.

<iframe
  src="https://benchgecko.ai/embed/labs/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data and chart by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">BenchGecko Labs</a>
  · Updated daily
</p>
I Gecko Tests sono test giornalieri proprietari eseguiti da BenchGecko su modelli IA frontier. Misurano comportamento di censura, bias razziale, orientamento politico, capacità di ragionamento, decisioni morali e derive comportamentali.