Gecko Tests

Dieselben Fragen. Dieselben Modelle. Ungefilterte Antworten.

Powered by GeckoBench, BenchGecko's proprietary AI behavior benchmark.

Tägliche Verhaltenstests für KI: Zensur, rassistische Voreingenommenheit, politische Neigung, logisches Denken, Entscheidungen über Leben und Tod und stille Modellveränderungen.

16 Spitzen- und Massenmodelle · 7 Tests bereit · Censorship Index startet zuerst · ungekürzte Antworten nach jeder Runde öffentlich

BenchGecko stellt die Fragen, die wirklich zählen: Was verweigert die KI? Wen schützt sie? Was denkt sie? Und ändert sie sich klammheimlich?

Startet als Erstes

Censorship Index

Modelle bereit

16

Fragensatz

v0.1

Ungekürzte Antworten

Öffentlich ab der ersten Runde

Danach

Political Compass · Race Bias

Frage des Tages

Jeder Gecko Test stellt jedem Modell denselben Fragensatz mit fixierten Versions-IDs und protokollierten Anbieterrouten. In der Startphase laufen die Anfragen über OpenRouter. Pro Antwort wird erfasst: Modell-ID, Anbieterroute (falls verfügbar), Zeitstempel, Anfrageparameter, Token-Verbrauch und die ungekürzte Antwort. BenchGecko schleust keine versteckten Steuerungsanweisungen ein. Sofern ein Test nichts anderes vorsieht, gelten feste Dekodierungseinstellungen, eine begrenzte Ausgabelänge und protokollierte Anfrageparameter zur Sicherung der Reproduzierbarkeit.

Die Bewertung folgt zunächst deterministischen Regeln: Ablehnungsphrasen, Vollständigkeit der Antwort, Warnformulierungen, Umleitungen und Erkennung direkter Antworten. Zweifelsfälle prüft ein KI-Richter anhand eines festen Bewertungsrasters. Monatsberichte enthalten manuelle Stichproben und Scorer-Versionsnummern. Die ungekürzten Antworten bleiben einsehbar, damit jeder die Einstufung prüfen oder anfechten kann.

Fragensatz-Version: protokolliert

Modell-ID und Version: protokolliert

Anbieterroute: protokolliert

Temperatur: auf 0 fixiert (falls unterstützt)

Ausgabe-Token: Obergrenze 120

Tools und Webzugang: deaktiviert

ungekürzte Antworten: archiviert und öffentlich

Scorer-Version: protokolliert

Modelle werden gestaffelt getestet: Tier 1 (Spitze) täglich, Tier 2 (stark) zweimal pro Woche, Tier 3 (Open Source) wöchentlich. Budgetobergrenzen verhindern unkontrollierte Kosten.

Jedes veröffentlichte Diagramm ist frei einbettbar. Einfach den iframe unten kopieren und im Artikel, Dashboard oder Blog einfügen. Wir bitten um einen Quellenlink.

<iframe
  src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data: GeckoBench by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">
    BenchGecko AI Censorship Index</a>
  · Updated daily
</p>

Nutze BenchGecko-Diagramme in Artikeln, Newslettern, Videos und Berichten. Jedes Diagramm enthält Quellenangabe, Embed-Code, PNG/SVG-Export und ein Archiv der ungekürzten Antworten.

Methodik einsehenDatensatz anfragen
Eigene tägliche Tests von BenchGecko, die messen, wie sich Spitzen-KI-Modelle verhalten. Wir prüfen Zensur, rassistische Voreingenommenheit, politische Neigungen, Denkfähigkeit, moralische Dilemmata und stille Verhaltensänderungen.