Gecko Tests

Mismos prompts. Mismos modelos. Respuestas sin filtro.

Tests diarios de comportamiento IA que cubren censura, sesgo racial, orientación política, CI, dilemas morales y deriva de modelos.

16 modelos frontier · 7 tests · actualización diaria · respuestas públicas

Cada Gecko Test envía prompts idénticos a cada modelo a través de la misma pasarela API (OpenRouter). Sin prompts de sistema. Sin ajuste de temperatura. Solo configuración por defecto.

Las respuestas son clasificadas por scorers automatizados con patrones de palabras clave y verificación por juez IA. Cada respuesta sin filtro se almacena y es accesible públicamente para verificación independiente.

Los modelos se testean según un calendario por niveles: Tier 1 (frontier) diariamente, Tier 2 (fuertes) dos veces por semana, Tier 3 (open source) semanalmente. Guardianes de presupuesto previenen costes desbocados.

Cada gráfico es de integración gratuita. Copia el snippet iframe de abajo y pégalo en tu artículo, dashboard o blog. Se requiere enlace de atribución.

<iframe
  src="https://benchgecko.ai/embed/labs/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data and chart by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">BenchGecko Labs</a>
  · Updated daily
</p>
Los Gecko Tests son tests diarios propietarios ejecutados por BenchGecko sobre modelos IA frontier. Miden comportamiento de censura, sesgo racial, orientación política, capacidad de razonamiento, toma de decisiones morales y derivas de comportamiento.