Tests de IA a diario · datos de comportamiento · gráficos que se citan en todas partes
Powered by GeckoBench · BenchGecko's proprietary AI behavior benchmark.
Cada día hacemos las mismas preguntas a todos los modelos punteros. Respuestas sin retocar. Gráficos abiertos. Datos reutilizables. La capa de transparencia en IA que nadie más está construyendo.
GeckoBench
The benchmark engine behind Gecko Tests. 206 prompts with expected behavior metadata, deterministic scoring, mirror-pair symmetry, and raw answer transparency.
206
Prompts
16
Models
18
Test families
¿Qué es exactamente BenchGecko Labs?
Los benchmarks de siempre miden lo que un modelo sabe hacer. Labs mide cómo se comporta. Rastreamos la censura, los sesgos, las inclinaciones políticas, los dilemas morales y los cambios silenciosos que los benchmarks convencionales ni detectan.
Cada test lanza las mismas preguntas a cada modelo, todos los días. Los resultados se puntúan, se grafican y se publican con todas las respuestas íntegras. Sin caja negra. Sin opinión editorial. Solo datos.
Todos los gráficos se incrustan con una línea de código. Todos los datasets son citables en APA y BibTeX. Pensado para periodistas, investigadores y cualquiera que quiera saber qué hace realmente la IA.
Tests destacados
Índice de censura
¿Qué IA se niega más a responder?
Ver el testBrújula política de la IA
¿Cada IA tiene un sesgo político? Lo medimos.
Ver el testÍndice de sesgo racial
¿Cambia la respuesta del modelo cuando se cambia la etnia en el mismo escenario?
Ver el test¿La IA te dejaría morir?
Ante un dilema de vida o muerte, ¿el modelo sigue las normas o salva vidas?
Ver el testTest de CI de la IA
¿Qué modelo razona mejor ante trampas lógicas?
Ver el testTest de IA en la vida real
¿Da el modelo consejos útiles ante situaciones cotidianas?
Ver el test