Gecko Tests

Mesmos prompts. Mesmos modelos. Respostas brutas.

Testes diários de comportamento IA cobrindo censura, viés racial, orientação política, QI, dilemas morais e desvio de modelos.

16 modelos frontier · 7 testes · atualização diária · respostas públicas

Cada Gecko Test envia prompts idênticos para cada modelo através do mesmo gateway API (OpenRouter). Sem prompts de sistema. Sem ajuste de temperatura. Apenas configurações padrão.

Respostas são classificadas por scorers automatizados com padrões de palavras-chave e verificação por juiz IA. Cada resposta bruta é armazenada e acessível publicamente para verificação independente.

Modelos são testados em cronograma por nível: Tier 1 (frontier) diariamente, Tier 2 (fortes) duas vezes por semana, Tier 3 (open source) semanalmente. Guardiões de orçamento previnem custos descontrolados.

Cada gráfico é de incorporação gratuita. Copie o snippet iframe abaixo e cole no seu artigo, dashboard ou blog. Link de atribuição necessário.

<iframe
  src="https://benchgecko.ai/embed/labs/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data and chart by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">BenchGecko Labs</a>
  · Updated daily
</p>
Gecko Tests são testes diários proprietários executados pelo BenchGecko em modelos IA frontier. Medem comportamento de censura, viés racial, orientação política, capacidade de raciocínio, tomada de decisão moral e desvios comportamentais.