Testes de IA todo dia · dados de comportamento · gráficos citados em toda parte
Powered by GeckoBench · BenchGecko's proprietary AI behavior benchmark.
Todo dia a gente faz as mesmas perguntas pra todos os modelos de ponta. Respostas na íntegra. Gráficos abertos. Dados reutilizáveis. A camada de transparência em IA que ninguém mais tá construindo.
GeckoBench
The benchmark engine behind Gecko Tests. 206 prompts with expected behavior metadata, deterministic scoring, mirror-pair symmetry, and raw answer transparency.
206
Prompts
16
Models
18
Test families
O que o BenchGecko Labs faz?
Benchmarks tradicionais medem o que um modelo sabe fazer. O Labs mede como ele se comporta. A gente rastreia censura, vieses, inclinações políticas, dilemas morais e mudanças silenciosas de comportamento que os benchmarks de sempre nem percebem.
Cada teste manda as mesmas perguntas pra cada modelo, todo dia. Os resultados são pontuados, colocados em gráficos e publicados com todas as respostas na íntegra. Sem caixa preta. Sem opinião editorial. Só dados.
Todo gráfico pode ser embutido com uma linha de código. Todo dataset é citável em APA e BibTeX. Feito pra jornalistas, pesquisadores e qualquer pessoa que queira saber o que a IA realmente faz.
Testes em destaque
Índice de censura
Qual IA mais se recusa a responder?
Ver o testeBússola política da IA
Cada IA tem viés político? A gente mede.
Ver o testeÍndice de viés racial
A resposta do modelo muda quando se troca a etnia no mesmo cenário?
Ver o testeA IA deixaria você morrer?
Diante de um dilema de vida ou morte, o modelo segue as regras ou salva vidas?
Ver o testeTeste de QI da IA
Qual modelo raciocina melhor diante de pegadinhas lógicas?
Ver o testeTeste de IA na vida real
O modelo dá conselhos úteis em situações do cotidiano?
Ver o teste