Testes IA diários, dados de comportamento e gráficos que as pessoas citam
Enviamos os mesmos prompts para cada modelo frontier, todos os dias. Respostas brutas. Gráficos públicos. Dados incorporáveis. A camada de comportamento IA que ninguém mais está construindo.
Sinal do dia
Sinais ao vivo aparecerão aqui quando os Gecko Tests estiverem ativos. Primeiro teste: Censorship Index.
O que é BenchGecko Labs?
Benchmarks tradicionais medem o desempenho de um modelo. Labs mede seu comportamento. Rastreamos padrões de censura, assimetrias de viés, orientações políticas, raciocínio moral e desvios comportamentais que benchmarks padrão ignoram completamente.
Cada teste envia os mesmos prompts para cada modelo, todos os dias. Resultados são pontuados, graficados e publicados com todas as respostas brutas. Sem caixa preta. Sem viés editorial. Apenas dados.
Cada gráfico é incorporável com uma linha de código. Cada dataset é citável em formato APA e BibTeX. Feito para jornalistas, pesquisadores e qualquer pessoa que acompanha como a IA realmente se comporta.
Testes em destaque
Índice de censura
Qual IA recusa mais?
Ver testeÍndice de viés racial
O modelo trata cenários idênticos com raças trocadas de forma diferente?
Ver testeBússola política IA
Onde cada modelo IA se situa politicamente?
Ver testeTeste de QI IA
Qual modelo IA raciocina melhor?
Ver teste