Gecko Tests

Mismas preguntas. Mismos modelos. Respuestas tal cual.

Tests diarios del comportamiento de la IA: censura, sesgo racial, orientación política, razonamiento, decisiones de vida o muerte y cambios silenciosos.

16 modelos punteros y de uso masivo · 7 tests listos · Censorship Index arranca primero · respuestas íntegras publicadas tras cada ronda

BenchGecko hace las preguntas que todo el mundo se hace de verdad: qué se niega a decir la IA, a quién protege, qué opina, y si cambia a escondidas.

Estado de los Gecko Tests

Arranca primero

Censorship Index

Modelos listos

Lote de preguntas

v0.1

Respuestas íntegras

Públicas tras la primera ronda

Political Compass · Race Bias

La pregunta del día

¿Qué IA se niega más a responder? Primer test: Censorship Index.

Gecko Refusal Index

Beta · launching first

Índice de censura

¿Qué IA se niega más a responder?

Ver el test

Gecko Worldview Index

Preview

Brújula política de la IA

¿Cada IA tiene un sesgo político? Lo medimos.

Ver el test

Gecko Symmetry Index

Preview

Índice de sesgo racial

¿Cambia la respuesta del modelo cuando se cambia la etnia en el mismo escenario?

Ver el test

Gecko Situation Index

Preview

Índice de sesgo de seguridad por género

¿Toma la IA igual de en serio el miedo de hombres y mujeres?

Ver el test

Gecko Moral Tradeoff Index

Preview

¿La IA te dejaría morir?

Ante un dilema de vida o muerte, ¿el modelo sigue las normas o salva vidas?

Ver el test

Gecko Reasoning Battery

Preview

Test de CI de la IA

¿Qué modelo razona mejor ante trampas lógicas?

Ver el test

Gecko Situation Index

Preview

Test de IA en la vida real

¿Da el modelo consejos útiles ante situaciones cotidianas?

Ver el test

Gecko Environmental Values Index

Preview

Índice Planeta contra Personas

¿Antepone la IA los objetivos medioambientales al bienestar humano?

Ver el test

Gecko Drift Index

Coming after first runs

Índice de deriva

¿Qué modelos cambiaron de comportamiento sin avisar esta semana?

Ver el test

Más Gecko Tests(8)

Gecko Symmetry Index

Preview

Índice de sesgo religioso

¿Protege la IA a unas religiones más que a otras?

Ver el test

Gecko Symmetry Index

Preview

Índice de apertura al debate LGBT

¿Permite la IA un debate de buena fe sobre cuestiones LGBT?

Ver el test

Gecko Worldview Index

Preview

Índice de sesgo ideológico

¿Aplica la IA el mismo rasero al capitalismo, el comunismo, la izquierda y la derecha?

Ver el test

Gecko Factual Integrity Index

Preview

Índice de integridad histórica

¿Preserva el modelo los hechos históricos bajo presión política?

Ver el test

Gecko Civic Fairness Index

Preview

Test del doble rasero sobre territorio y migración

¿Aplica el modelo el mismo criterio a los asentamientos históricos y a la migración moderna?

Ver el test

Gecko Civic Fairness Index

Preview

Test Víctimas contra Criminales

¿Equilibra la IA los derechos de los agresores, la seguridad de las víctimas y los ciudadanos cumplidores de la ley?

Ver el test

Gecko Consistency Index

Sensitive preview

Test del doble rasero

¿Aplica el modelo las mismas reglas sobre odio a todos los grupos por igual?

Ver el test

Gecko Creative Boundary Index

Preview

Índice de libertad creativa

¿Permite la IA la ficción seria, la sátira y la escritura histórica?

Ver el test

Metodología

Cada Gecko Test lanza el mismo lote de preguntas a cada modelo con IDs de versión fijos y rutas de proveedor registradas. En la fase inicial, las llamadas pasan por OpenRouter. De cada respuesta se registra: ID del modelo, ruta del proveedor (si la hay), marca de tiempo, parámetros de la petición, consumo de tokens y la respuesta íntegra. BenchGecko no inyecta instrucciones ocultas. Salvo que un test indique lo contrario, todas las ejecuciones usan ajustes de decodificación fijos, longitud de salida limitada y parámetros registrados para garantizar la reproducibilidad.

La puntuación se aplica primero con reglas deterministas: detección de rechazo, completitud de la respuesta, lenguaje de advertencia, redirecciones y respuesta directa. Los casos dudosos pasan por un juez IA con una rúbrica fija. Los informes mensuales incluyen muestras de auditoría manual y versiones del evaluador. Las respuestas íntegras quedan accesibles para que cualquiera pueda verificar o cuestionar la clasificación.

versión del lote de preguntas: registrada

ID y versión del modelo: registrados

ruta del proveedor: registrada

temperatura: fijada en 0 (si se soporta)

tokens de salida: tope de 120

herramientas y acceso web: desactivados

respuestas íntegras: archivadas y públicas

versión del evaluador: registrada

Los modelos se testean por niveles: Tier 1 (punteros) a diario, Tier 2 (fuertes) dos veces por semana, Tier 3 (open source) una vez por semana. Hay topes de gasto para evitar costes descontrolados.

Incrustar y citar

Cada gráfico publicado será de libre incrustación. Copia el iframe de abajo y pégalo en tu artículo, dashboard o blog. Se pide un enlace de atribución.

<iframe
  src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data: GeckoBench by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">
    BenchGecko AI Censorship Index</a>
  · Updated daily
</p>

Para periodistas, investigadores y creadores

Usa los gráficos de BenchGecko en tus artículos, newsletters, vídeos o informes. Cada gráfico incluye cita, código de incrustación, exportación PNG/SVG y archivo de respuestas íntegras.

Consultar la metodología Solicitar dataset

Preguntas frecuentes

Tests diarios diseñados por BenchGecko para medir cómo se comportan los modelos de IA punteros. Evaluamos la censura, los sesgos raciales, las inclinaciones políticas, la capacidad de razonamiento, los dilemas morales y los cambios silenciosos de comportamiento.

Mismas preguntas. Mismos modelos. Respuestas tal cual.

Estado de los Gecko Tests

Índice de censura

Brújula política de la IA

Índice de sesgo racial

Índice de sesgo de seguridad por género

¿La IA te dejaría morir?

Test de CI de la IA

Test de IA en la vida real

Índice Planeta contra Personas

Índice de deriva

Índice de sesgo religioso

Índice de apertura al debate LGBT

Índice de sesgo ideológico

Índice de integridad histórica

Test del doble rasero sobre territorio y migración

Test Víctimas contra Criminales

Test del doble rasero

Índice de libertad creativa

Metodología

Incrustar y citar

Para periodistas, investigadores y creadores

Preguntas frecuentes

Gráficos

Datos

Recursos