Mesmas perguntas. Mesmos modelos. Respostas na íntegra.
Powered by GeckoBench, BenchGecko's proprietary AI behavior benchmark.
Testes diários de comportamento de IA: censura, viés racial, orientação política, raciocínio, decisões de vida ou morte e mudanças silenciosas.
16 modelos de ponta e de uso massivo · 7 testes prontos · Censorship Index sai primeiro · respostas na íntegra publicadas após cada rodada
BenchGecko faz as perguntas que todo mundo quer saber de verdade: o que a IA se recusa a dizer, quem ela protege, o que ela pensa, e se tá mudando por baixo dos panos.
Status dos Gecko Tests
Sai primeiro
Censorship Index
Modelos prontos
16
Lote de perguntas
v0.1
Respostas na íntegra
Públicas após a primeira rodada
Próximo
Political Compass · Race Bias
A pergunta do dia
Qual IA mais se recusa a responder? Primeiro teste: Censorship Index.
Índice de censura
Qual IA mais se recusa a responder?
Ver o testeBússola política da IA
Cada IA tem viés político? A gente mede.
Ver o testeÍndice de viés racial
A resposta do modelo muda quando se troca a etnia no mesmo cenário?
Ver o testeÍndice de viés de segurança por gênero
A IA leva o medo de homens e mulheres igualmente a sério?
Ver o testeA IA deixaria você morrer?
Diante de um dilema de vida ou morte, o modelo segue as regras ou salva vidas?
Ver o testeTeste de QI da IA
Qual modelo raciocina melhor diante de pegadinhas lógicas?
Ver o testeTeste de IA na vida real
O modelo dá conselhos úteis em situações do cotidiano?
Ver o testeÍndice Planeta contra Pessoas
A IA prioriza objetivos ambientais em detrimento do bem-estar humano?
Ver o testeÍndice de deriva
Quais modelos mudaram de comportamento sem avisar essa semana?
Ver o testeMais Gecko Tests(8)
Índice de viés religioso
A IA protege certas religiões mais do que outras?
Ver o testeÍndice de abertura ao debate LGBT
A IA permite um debate de boa-fé sobre questões LGBT?
Ver o testeÍndice de viés ideológico
A IA aplica o mesmo padrão ao capitalismo, comunismo, esquerda e direita?
Ver o testeÍndice de integridade histórica
O modelo preserva fatos históricos sob pressão política?
Ver o testeTeste do duplo padrão sobre território e migração
O modelo aplica o mesmo critério à colonização histórica e à migração moderna?
Ver o testeTeste Vítimas contra Criminosos
A IA equilibra os direitos dos infratores, a segurança das vítimas e os cidadãos que cumprem a lei?
Ver o testeTeste do dois pesos, duas medidas
O modelo aplica as mesmas regras de discurso de ódio pra todos os grupos?
Ver o testeÍndice de liberdade criativa
A IA permite ficção séria, sátira e escrita histórica?
Ver o testeMetodologia
Cada Gecko Test manda o mesmo lote de perguntas pra cada modelo com IDs de versão fixos e rotas de provedor registradas. Na fase inicial, as chamadas passam pelo OpenRouter. De cada resposta, registramos: ID do modelo, rota do provedor (quando disponível), timestamp, parâmetros da requisição, uso de tokens e a resposta na íntegra. O BenchGecko não injeta nenhuma instrução oculta. Salvo indicação contrária no teste, todas as execuções usam configurações de decodificação fixas, tamanho de saída limitado e parâmetros registrados pra garantir reprodutibilidade.
A pontuação é aplicada primeiro com regras determinísticas: detecção de recusa, completude da resposta, linguagem de alerta, redirecionamentos e resposta direta. Casos duvidosos passam por um juiz IA com rubrica fixa. Os relatórios mensais incluem amostras de auditoria manual e versões do avaliador. As respostas na íntegra ficam acessíveis pra que qualquer pessoa possa conferir ou questionar a classificação.
versão do lote de perguntas: registrada
ID e versão do modelo: registrados
rota do provedor: registrada
temperatura: fixada em 0 (quando suportado)
tokens de saída: teto de 120
ferramentas e acesso web: desativados
respostas na íntegra: arquivadas e públicas
versão do avaliador: registrada
Modelos são testados por camadas: Tier 1 (ponta) todo dia, Tier 2 (fortes) duas vezes por semana, Tier 3 (open source) uma vez por semana. Limites de orçamento evitam custos descontrolados.
Embutir e citar
Todo gráfico publicado será de embed livre. Copie o iframe abaixo e cole no seu artigo, dashboard ou blog. Pedimos um link de atribuição.
<iframe
src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
width="600" height="400"
frameborder="0"
title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
Data: GeckoBench by
<a href="https://benchgecko.ai/gecko-tests/censorship-index">
BenchGecko AI Censorship Index</a>
· Updated daily
</p>Pra jornalistas, pesquisadores e criadores
Use os gráficos do BenchGecko em artigos, newsletters, vídeos e relatórios. Cada gráfico inclui citação, código de embed, exportação PNG/SVG e arquivo de respostas na íntegra.