BenchGecko Labs

Testes IA diários, dados de comportamento e gráficos que as pessoas citam

Enviamos os mesmos prompts para cada modelo frontier, todos os dias. Respostas brutas. Gráficos públicos. Dados incorporáveis. A camada de comportamento IA que ninguém mais está construindo.

Sinais ao vivo aparecerão aqui quando os Gecko Tests estiverem ativos. Primeiro teste: Censorship Index.

Benchmarks tradicionais medem o desempenho de um modelo. Labs mede seu comportamento. Rastreamos padrões de censura, assimetrias de viés, orientações políticas, raciocínio moral e desvios comportamentais que benchmarks padrão ignoram completamente.

Cada teste envia os mesmos prompts para cada modelo, todos os dias. Resultados são pontuados, graficados e publicados com todas as respostas brutas. Sem caixa preta. Sem viés editorial. Apenas dados.

Cada gráfico é incorporável com uma linha de código. Cada dataset é citável em formato APA e BibTeX. Feito para jornalistas, pesquisadores e qualquer pessoa que acompanha como a IA realmente se comporta.

BenchGecko Labs executa testes diários proprietários em modelos IA para medir censura, viés, orientação política, capacidade de raciocínio, tomada de decisão moral e desvios comportamentais. Mesmos prompts, mesmos modelos, todos os dias.