Gecko Tests

Mesmas perguntas. Mesmos modelos. Respostas na íntegra.

Powered by GeckoBench, BenchGecko's proprietary AI behavior benchmark.

Testes diários de comportamento de IA: censura, viés racial, orientação política, raciocínio, decisões de vida ou morte e mudanças silenciosas.

16 modelos de ponta e de uso massivo · 7 testes prontos · Censorship Index sai primeiro · respostas na íntegra publicadas após cada rodada

BenchGecko faz as perguntas que todo mundo quer saber de verdade: o que a IA se recusa a dizer, quem ela protege, o que ela pensa, e se tá mudando por baixo dos panos.

Sai primeiro

Censorship Index

Modelos prontos

16

Lote de perguntas

v0.1

Respostas na íntegra

Públicas após a primeira rodada

Próximo

Political Compass · Race Bias

A pergunta do dia

Cada Gecko Test manda o mesmo lote de perguntas pra cada modelo com IDs de versão fixos e rotas de provedor registradas. Na fase inicial, as chamadas passam pelo OpenRouter. De cada resposta, registramos: ID do modelo, rota do provedor (quando disponível), timestamp, parâmetros da requisição, uso de tokens e a resposta na íntegra. O BenchGecko não injeta nenhuma instrução oculta. Salvo indicação contrária no teste, todas as execuções usam configurações de decodificação fixas, tamanho de saída limitado e parâmetros registrados pra garantir reprodutibilidade.

A pontuação é aplicada primeiro com regras determinísticas: detecção de recusa, completude da resposta, linguagem de alerta, redirecionamentos e resposta direta. Casos duvidosos passam por um juiz IA com rubrica fixa. Os relatórios mensais incluem amostras de auditoria manual e versões do avaliador. As respostas na íntegra ficam acessíveis pra que qualquer pessoa possa conferir ou questionar a classificação.

versão do lote de perguntas: registrada

ID e versão do modelo: registrados

rota do provedor: registrada

temperatura: fixada em 0 (quando suportado)

tokens de saída: teto de 120

ferramentas e acesso web: desativados

respostas na íntegra: arquivadas e públicas

versão do avaliador: registrada

Modelos são testados por camadas: Tier 1 (ponta) todo dia, Tier 2 (fortes) duas vezes por semana, Tier 3 (open source) uma vez por semana. Limites de orçamento evitam custos descontrolados.

Todo gráfico publicado será de embed livre. Copie o iframe abaixo e cole no seu artigo, dashboard ou blog. Pedimos um link de atribuição.

<iframe
  src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data: GeckoBench by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">
    BenchGecko AI Censorship Index</a>
  · Updated daily
</p>

Use os gráficos do BenchGecko em artigos, newsletters, vídeos e relatórios. Cada gráfico inclui citação, código de embed, exportação PNG/SVG e arquivo de respostas na íntegra.

Consultar a metodologiaSolicitar dataset
Testes diários criados pelo BenchGecko pra medir como os modelos de IA de ponta se comportam. A gente avalia censura, viés racial, inclinações políticas, capacidade de raciocínio, dilemas morais e mudanças silenciosas de comportamento.