Gecko Tests

Mesmas perguntas. Mesmos modelos. Respostas na íntegra.

Testes diários de comportamento de IA: censura, viés racial, orientação política, raciocínio, decisões de vida ou morte e mudanças silenciosas.

16 modelos de ponta e de uso massivo · 7 testes prontos · Censorship Index sai primeiro · respostas na íntegra publicadas após cada rodada

BenchGecko faz as perguntas que todo mundo quer saber de verdade: o que a IA se recusa a dizer, quem ela protege, o que ela pensa, e se tá mudando por baixo dos panos.

Status dos Gecko Tests

Sai primeiro

Censorship Index

Modelos prontos

Lote de perguntas

v0.1

Respostas na íntegra

Públicas após a primeira rodada

Political Compass · Race Bias

A pergunta do dia

Qual IA mais se recusa a responder? Primeiro teste: Censorship Index.

Gecko Refusal Index

Beta · launching first

Índice de censura

Qual IA mais se recusa a responder?

Ver o teste

Gecko Worldview Index

Preview

Bússola política da IA

Cada IA tem viés político? A gente mede.

Ver o teste

Gecko Symmetry Index

Preview

Índice de viés racial

A resposta do modelo muda quando se troca a etnia no mesmo cenário?

Ver o teste

Gecko Situation Index

Preview

Índice de viés de segurança por gênero

A IA leva o medo de homens e mulheres igualmente a sério?

Ver o teste

Gecko Moral Tradeoff Index

Preview

A IA deixaria você morrer?

Diante de um dilema de vida ou morte, o modelo segue as regras ou salva vidas?

Ver o teste

Gecko Reasoning Battery

Preview

Teste de QI da IA

Qual modelo raciocina melhor diante de pegadinhas lógicas?

Ver o teste

Gecko Situation Index

Preview

Teste de IA na vida real

O modelo dá conselhos úteis em situações do cotidiano?

Ver o teste

Gecko Environmental Values Index

Preview

Índice Planeta contra Pessoas

A IA prioriza objetivos ambientais em detrimento do bem-estar humano?

Ver o teste

Gecko Drift Index

Coming after first runs

Índice de deriva

Quais modelos mudaram de comportamento sem avisar essa semana?

Ver o teste

Mais Gecko Tests(8)

Gecko Symmetry Index

Preview

Índice de viés religioso

A IA protege certas religiões mais do que outras?

Ver o teste

Gecko Symmetry Index

Preview

Índice de abertura ao debate LGBT

A IA permite um debate de boa-fé sobre questões LGBT?

Ver o teste

Gecko Worldview Index

Preview

Índice de viés ideológico

A IA aplica o mesmo padrão ao capitalismo, comunismo, esquerda e direita?

Ver o teste

Gecko Factual Integrity Index

Preview

Índice de integridade histórica

O modelo preserva fatos históricos sob pressão política?

Ver o teste

Gecko Civic Fairness Index

Preview

Teste do duplo padrão sobre território e migração

O modelo aplica o mesmo critério à colonização histórica e à migração moderna?

Ver o teste

Gecko Civic Fairness Index

Preview

Teste Vítimas contra Criminosos

A IA equilibra os direitos dos infratores, a segurança das vítimas e os cidadãos que cumprem a lei?

Ver o teste

Gecko Consistency Index

Sensitive preview

Teste do dois pesos, duas medidas

O modelo aplica as mesmas regras de discurso de ódio pra todos os grupos?

Ver o teste

Gecko Creative Boundary Index

Preview

Índice de liberdade criativa

A IA permite ficção séria, sátira e escrita histórica?

Ver o teste

Metodologia

Cada Gecko Test manda o mesmo lote de perguntas pra cada modelo com IDs de versão fixos e rotas de provedor registradas. Na fase inicial, as chamadas passam pelo OpenRouter. De cada resposta, registramos: ID do modelo, rota do provedor (quando disponível), timestamp, parâmetros da requisição, uso de tokens e a resposta na íntegra. O BenchGecko não injeta nenhuma instrução oculta. Salvo indicação contrária no teste, todas as execuções usam configurações de decodificação fixas, tamanho de saída limitado e parâmetros registrados pra garantir reprodutibilidade.

A pontuação é aplicada primeiro com regras determinísticas: detecção de recusa, completude da resposta, linguagem de alerta, redirecionamentos e resposta direta. Casos duvidosos passam por um juiz IA com rubrica fixa. Os relatórios mensais incluem amostras de auditoria manual e versões do avaliador. As respostas na íntegra ficam acessíveis pra que qualquer pessoa possa conferir ou questionar a classificação.

versão do lote de perguntas: registrada

ID e versão do modelo: registrados

rota do provedor: registrada

temperatura: fixada em 0 (quando suportado)

tokens de saída: teto de 120

ferramentas e acesso web: desativados

respostas na íntegra: arquivadas e públicas

versão do avaliador: registrada

Modelos são testados por camadas: Tier 1 (ponta) todo dia, Tier 2 (fortes) duas vezes por semana, Tier 3 (open source) uma vez por semana. Limites de orçamento evitam custos descontrolados.

Embutir e citar

Todo gráfico publicado será de embed livre. Copie o iframe abaixo e cole no seu artigo, dashboard ou blog. Pedimos um link de atribuição.

<iframe
  src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data: GeckoBench by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">
    BenchGecko AI Censorship Index</a>
  · Updated daily
</p>

Pra jornalistas, pesquisadores e criadores

Use os gráficos do BenchGecko em artigos, newsletters, vídeos e relatórios. Cada gráfico inclui citação, código de embed, exportação PNG/SVG e arquivo de respostas na íntegra.

Consultar a metodologia Solicitar dataset

Perguntas frequentes

Testes diários criados pelo BenchGecko pra medir como os modelos de IA de ponta se comportam. A gente avalia censura, viés racial, inclinações políticas, capacidade de raciocínio, dilemas morais e mudanças silenciosas de comportamento.

Mesmas perguntas. Mesmos modelos. Respostas na íntegra.

Status dos Gecko Tests

Índice de censura

Bússola política da IA

Índice de viés racial

Índice de viés de segurança por gênero

A IA deixaria você morrer?

Teste de QI da IA

Teste de IA na vida real

Índice Planeta contra Pessoas

Índice de deriva

Índice de viés religioso

Índice de abertura ao debate LGBT

Índice de viés ideológico

Índice de integridade histórica

Teste do duplo padrão sobre território e migração

Teste Vítimas contra Criminosos

Teste do dois pesos, duas medidas

Índice de liberdade criativa

Metodologia

Embutir e citar

Pra jornalistas, pesquisadores e criadores

Perguntas frequentes

Gráficos

Dados

Recursos