Mismas preguntas. Mismos modelos. Respuestas tal cual.
Powered by GeckoBench, BenchGecko's proprietary AI behavior benchmark.
Tests diarios del comportamiento de la IA: censura, sesgo racial, orientación política, razonamiento, decisiones de vida o muerte y cambios silenciosos.
16 modelos punteros y de uso masivo · 7 tests listos · Censorship Index arranca primero · respuestas íntegras publicadas tras cada ronda
BenchGecko hace las preguntas que todo el mundo se hace de verdad: qué se niega a decir la IA, a quién protege, qué opina, y si cambia a escondidas.
Estado de los Gecko Tests
Arranca primero
Censorship Index
Modelos listos
16
Lote de preguntas
v0.1
Respuestas íntegras
Públicas tras la primera ronda
Siguiente
Political Compass · Race Bias
La pregunta del día
¿Qué IA se niega más a responder? Primer test: Censorship Index.
Índice de censura
¿Qué IA se niega más a responder?
Ver el testBrújula política de la IA
¿Cada IA tiene un sesgo político? Lo medimos.
Ver el testÍndice de sesgo racial
¿Cambia la respuesta del modelo cuando se cambia la etnia en el mismo escenario?
Ver el testÍndice de sesgo de seguridad por género
¿Toma la IA igual de en serio el miedo de hombres y mujeres?
Ver el test¿La IA te dejaría morir?
Ante un dilema de vida o muerte, ¿el modelo sigue las normas o salva vidas?
Ver el testTest de CI de la IA
¿Qué modelo razona mejor ante trampas lógicas?
Ver el testTest de IA en la vida real
¿Da el modelo consejos útiles ante situaciones cotidianas?
Ver el testÍndice Planeta contra Personas
¿Antepone la IA los objetivos medioambientales al bienestar humano?
Ver el testÍndice de deriva
¿Qué modelos cambiaron de comportamiento sin avisar esta semana?
Ver el testMás Gecko Tests(8)
Índice de sesgo religioso
¿Protege la IA a unas religiones más que a otras?
Ver el testÍndice de apertura al debate LGBT
¿Permite la IA un debate de buena fe sobre cuestiones LGBT?
Ver el testÍndice de sesgo ideológico
¿Aplica la IA el mismo rasero al capitalismo, el comunismo, la izquierda y la derecha?
Ver el testÍndice de integridad histórica
¿Preserva el modelo los hechos históricos bajo presión política?
Ver el testTest del doble rasero sobre territorio y migración
¿Aplica el modelo el mismo criterio a los asentamientos históricos y a la migración moderna?
Ver el testTest Víctimas contra Criminales
¿Equilibra la IA los derechos de los agresores, la seguridad de las víctimas y los ciudadanos cumplidores de la ley?
Ver el testTest del doble rasero
¿Aplica el modelo las mismas reglas sobre odio a todos los grupos por igual?
Ver el testÍndice de libertad creativa
¿Permite la IA la ficción seria, la sátira y la escritura histórica?
Ver el testMetodología
Cada Gecko Test lanza el mismo lote de preguntas a cada modelo con IDs de versión fijos y rutas de proveedor registradas. En la fase inicial, las llamadas pasan por OpenRouter. De cada respuesta se registra: ID del modelo, ruta del proveedor (si la hay), marca de tiempo, parámetros de la petición, consumo de tokens y la respuesta íntegra. BenchGecko no inyecta instrucciones ocultas. Salvo que un test indique lo contrario, todas las ejecuciones usan ajustes de decodificación fijos, longitud de salida limitada y parámetros registrados para garantizar la reproducibilidad.
La puntuación se aplica primero con reglas deterministas: detección de rechazo, completitud de la respuesta, lenguaje de advertencia, redirecciones y respuesta directa. Los casos dudosos pasan por un juez IA con una rúbrica fija. Los informes mensuales incluyen muestras de auditoría manual y versiones del evaluador. Las respuestas íntegras quedan accesibles para que cualquiera pueda verificar o cuestionar la clasificación.
versión del lote de preguntas: registrada
ID y versión del modelo: registrados
ruta del proveedor: registrada
temperatura: fijada en 0 (si se soporta)
tokens de salida: tope de 120
herramientas y acceso web: desactivados
respuestas íntegras: archivadas y públicas
versión del evaluador: registrada
Los modelos se testean por niveles: Tier 1 (punteros) a diario, Tier 2 (fuertes) dos veces por semana, Tier 3 (open source) una vez por semana. Hay topes de gasto para evitar costes descontrolados.
Incrustar y citar
Cada gráfico publicado será de libre incrustación. Copia el iframe de abajo y pégalo en tu artículo, dashboard o blog. Se pide un enlace de atribución.
<iframe
src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
width="600" height="400"
frameborder="0"
title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
Data: GeckoBench by
<a href="https://benchgecko.ai/gecko-tests/censorship-index">
BenchGecko AI Censorship Index</a>
· Updated daily
</p>Para periodistas, investigadores y creadores
Usa los gráficos de BenchGecko en tus artículos, newsletters, vídeos o informes. Cada gráfico incluye cita, código de incrustación, exportación PNG/SVG y archivo de respuestas íntegras.