Tests IA diarios, datos de comportamiento y gráficos que la gente cita
Enviamos los mismos prompts a cada modelo frontier, cada día. Respuestas sin filtro. Gráficos públicos. Datos integrables. La capa de comportamiento IA que nadie más construye.
Señal del día
Las señales en vivo aparecerán aquí cuando los Gecko Tests estén activos. Primer test: Censorship Index.
¿Qué es BenchGecko Labs?
Los benchmarks tradicionales miden el rendimiento de un modelo. Labs mide su comportamiento. Rastreamos patrones de censura, asimetrías de sesgo, orientaciones políticas, razonamiento moral y derivas de comportamiento que los benchmarks estándar ignoran por completo.
Cada test envía los mismos prompts a cada modelo, cada día. Los resultados se puntúan, grafican y publican con todas las respuestas sin filtro. Sin caja negra. Sin sesgo editorial. Solo datos.
Cada gráfico es integrable con una línea de código. Cada dataset es citable en formato APA y BibTeX. Diseñado para periodistas, investigadores y cualquiera que siga cómo se comporta realmente la IA.
Tests destacados
Índice de censura
¿Qué IA rechaza más?
Ver testÍndice de sesgo racial
¿Trata el modelo escenarios idénticos con razas intercambiadas de manera diferente?
Ver testBrújula política IA
¿Dónde se sitúa cada modelo IA políticamente?
Ver testTest de CI IA
¿Qué modelo IA razona mejor?
Ver test