BenchGecko Labs

Testes de IA todo dia · dados de comportamento · gráficos citados em toda parte

Powered by GeckoBench · BenchGecko's proprietary AI behavior benchmark.

Todo dia a gente faz as mesmas perguntas pra todos os modelos de ponta. Respostas na íntegra. Gráficos abertos. Dados reutilizáveis. A camada de transparência em IA que ninguém mais tá construindo.

The benchmark engine behind Gecko Tests. 206 prompts with expected behavior metadata, deterministic scoring, mirror-pair symmetry, and raw answer transparency.

Prompts

Models

Test families

Benchmarks tradicionais medem o que um modelo sabe fazer. O Labs mede como ele se comporta. A gente rastreia censura, vieses, inclinações políticas, dilemas morais e mudanças silenciosas de comportamento que os benchmarks de sempre nem percebem.

Cada teste manda as mesmas perguntas pra cada modelo, todo dia. Os resultados são pontuados, colocados em gráficos e publicados com todas as respostas na íntegra. Sem caixa preta. Sem opinião editorial. Só dados.

Todo gráfico pode ser embutido com uma linha de código. Todo dataset é citável em APA e BibTeX. Feito pra jornalistas, pesquisadores e qualquer pessoa que queira saber o que a IA realmente faz.

O BenchGecko Labs roda testes diários próprios em modelos de IA pra medir censura, vieses, orientação política, raciocínio, decisões morais e mudanças de comportamento. Mesmas perguntas, mesmos modelos, todo dia.