Gecko Tests

Gleiche Prompts. Gleiche Modelle. Rohe Antworten.

Tägliche KI-Verhaltenstests zu Zensur, Rassenbias, politischer Orientierung, IQ, moralischen Dilemmata und Modelldrift.

16 Frontier-Modelle · 7 Tests · täglich aktualisiert · öffentliche Antworten

Jeder Gecko Test sendet identische Prompts an jedes Modell über dasselbe API-Gateway (OpenRouter). Keine System-Prompts. Keine Temperaturanpassung. Nur Standardeinstellungen.

Antworten werden von automatisierten Scorern mit Schlüsselwortmustern und KI-Richter-Verifikation klassifiziert. Jede rohe Antwort wird gespeichert und ist öffentlich zugänglich für unabhängige Überprüfung.

Modelle werden nach einem gestaffelten Zeitplan getestet: Tier 1 (Frontier) täglich, Tier 2 (stark) zweimal pro Woche, Tier 3 (Open Source) wöchentlich. Budget-Schutzmaßnahmen verhindern unkontrollierte Kosten.

Jedes Diagramm ist kostenlos einbettbar. Kopieren Sie den iframe-Snippet unten und fügen Sie ihn in Ihren Artikel, Ihr Dashboard oder Blog ein. Attributionslink erforderlich.

<iframe
  src="https://benchgecko.ai/embed/labs/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data and chart by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">BenchGecko Labs</a>
  · Updated daily
</p>
Gecko Tests sind proprietäre tägliche Tests, die von BenchGecko an Frontier-KI-Modellen durchgeführt werden. Sie messen Zensurverhalten, Rassenbias, politische Orientierung, Denkfähigkeit, moralische Entscheidungsfindung und Verhaltensabweichungen.