BenchGecko Labs

Tests IA diarios, datos de comportamiento y gráficos que la gente cita

Enviamos los mismos prompts a cada modelo frontier, cada día. Respuestas sin filtro. Gráficos públicos. Datos integrables. La capa de comportamiento IA que nadie más construye.

Las señales en vivo aparecerán aquí cuando los Gecko Tests estén activos. Primer test: Censorship Index.

Los benchmarks tradicionales miden el rendimiento de un modelo. Labs mide su comportamiento. Rastreamos patrones de censura, asimetrías de sesgo, orientaciones políticas, razonamiento moral y derivas de comportamiento que los benchmarks estándar ignoran por completo.

Cada test envía los mismos prompts a cada modelo, cada día. Los resultados se puntúan, grafican y publican con todas las respuestas sin filtro. Sin caja negra. Sin sesgo editorial. Solo datos.

Cada gráfico es integrable con una línea de código. Cada dataset es citable en formato APA y BibTeX. Diseñado para periodistas, investigadores y cualquiera que siga cómo se comporta realmente la IA.

BenchGecko Labs ejecuta tests diarios propietarios sobre modelos IA para medir censura, sesgo, orientación política, capacidad de razonamiento, toma de decisiones morales y derivas de comportamiento. Mismos prompts, mismos modelos, cada día.