Gecko Tests

Mismas preguntas. Mismos modelos. Respuestas tal cual.

Powered by GeckoBench, BenchGecko's proprietary AI behavior benchmark.

Tests diarios del comportamiento de la IA: censura, sesgo racial, orientación política, razonamiento, decisiones de vida o muerte y cambios silenciosos.

16 modelos punteros y de uso masivo · 7 tests listos · Censorship Index arranca primero · respuestas íntegras publicadas tras cada ronda

BenchGecko hace las preguntas que todo el mundo se hace de verdad: qué se niega a decir la IA, a quién protege, qué opina, y si cambia a escondidas.

Arranca primero

Censorship Index

Modelos listos

16

Lote de preguntas

v0.1

Respuestas íntegras

Públicas tras la primera ronda

Siguiente

Political Compass · Race Bias

La pregunta del día

Cada Gecko Test lanza el mismo lote de preguntas a cada modelo con IDs de versión fijos y rutas de proveedor registradas. En la fase inicial, las llamadas pasan por OpenRouter. De cada respuesta se registra: ID del modelo, ruta del proveedor (si la hay), marca de tiempo, parámetros de la petición, consumo de tokens y la respuesta íntegra. BenchGecko no inyecta instrucciones ocultas. Salvo que un test indique lo contrario, todas las ejecuciones usan ajustes de decodificación fijos, longitud de salida limitada y parámetros registrados para garantizar la reproducibilidad.

La puntuación se aplica primero con reglas deterministas: detección de rechazo, completitud de la respuesta, lenguaje de advertencia, redirecciones y respuesta directa. Los casos dudosos pasan por un juez IA con una rúbrica fija. Los informes mensuales incluyen muestras de auditoría manual y versiones del evaluador. Las respuestas íntegras quedan accesibles para que cualquiera pueda verificar o cuestionar la clasificación.

versión del lote de preguntas: registrada

ID y versión del modelo: registrados

ruta del proveedor: registrada

temperatura: fijada en 0 (si se soporta)

tokens de salida: tope de 120

herramientas y acceso web: desactivados

respuestas íntegras: archivadas y públicas

versión del evaluador: registrada

Los modelos se testean por niveles: Tier 1 (punteros) a diario, Tier 2 (fuertes) dos veces por semana, Tier 3 (open source) una vez por semana. Hay topes de gasto para evitar costes descontrolados.

Cada gráfico publicado será de libre incrustación. Copia el iframe de abajo y pégalo en tu artículo, dashboard o blog. Se pide un enlace de atribución.

<iframe
  src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data: GeckoBench by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">
    BenchGecko AI Censorship Index</a>
  · Updated daily
</p>

Usa los gráficos de BenchGecko en tus artículos, newsletters, vídeos o informes. Cada gráfico incluye cita, código de incrustación, exportación PNG/SVG y archivo de respuestas íntegras.

Consultar la metodologíaSolicitar dataset
Tests diarios diseñados por BenchGecko para medir cómo se comportan los modelos de IA punteros. Evaluamos la censura, los sesgos raciales, las inclinaciones políticas, la capacidad de razonamiento, los dilemas morales y los cambios silenciosos de comportamiento.