Stessi prompt. Stessi modelli. Risposte grezze.
Test giornalieri sul comportamento IA che coprono censura, bias razziale, orientamento politico, QI, dilemmi morali e deriva dei modelli.
16 modelli frontier · 7 test · aggiornamento giornaliero · risposte pubbliche
Indice di censura
Quale IA rifiuta di più?
Indice di bias razziale
Il modello tratta scenari identici con razze scambiate in modo diverso?
Test del doppio standard sugli insulti
Il modello applica le regole sull'hate speech in modo uguale?
L'IA lascerebbe morire le persone?
Il modello sceglie le regole o la sopravvivenza umana?
Bussola politica IA
Dove si colloca ogni modello IA politicamente?
Test QI IA
Quale modello IA ragiona meglio?
Indice di deriva
Quali modelli hanno cambiato più comportamento questa settimana?
Metodologia
Ogni Gecko Test invia prompt identici a ogni modello attraverso lo stesso gateway API (OpenRouter). Nessun prompt di sistema. Nessun aggiustamento della temperatura. Solo impostazioni predefinite.
Le risposte vengono classificate da scorer automatizzati con pattern di parole chiave e verifica da giudice IA. Ogni risposta grezza viene archiviata ed è accessibile pubblicamente per la verifica indipendente.
I modelli vengono testati secondo un calendario a livelli: Tier 1 (frontier) quotidianamente, Tier 2 (forti) due volte a settimana, Tier 3 (open source) settimanalmente. Guardie di budget prevengono costi fuori controllo.
Incorpora e cita
Ogni grafico è incorporabile gratuitamente. Copia lo snippet iframe qui sotto e incollalo nel tuo articolo, dashboard o blog. Link di attribuzione richiesto.
<iframe src="https://benchgecko.ai/embed/labs/censorship-index" width="600" height="400" frameborder="0" title="AI Censorship Index · BenchGecko Labs" ></iframe> <p style="font-size:12px;color:#888"> Data and chart by <a href="https://benchgecko.ai/gecko-tests/censorship-index">BenchGecko Labs</a> · Updated daily </p>