Gecko Tests

Dieselben Fragen. Dieselben Modelle. Ungefilterte Antworten.

Tägliche Verhaltenstests für KI: Zensur, rassistische Voreingenommenheit, politische Neigung, logisches Denken, Entscheidungen über Leben und Tod und stille Modellveränderungen.

16 Spitzen- und Massenmodelle · 7 Tests bereit · Censorship Index startet zuerst · ungekürzte Antworten nach jeder Runde öffentlich

BenchGecko stellt die Fragen, die wirklich zählen: Was verweigert die KI? Wen schützt sie? Was denkt sie? Und ändert sie sich klammheimlich?

Status der Gecko Tests

Startet als Erstes

Censorship Index

Modelle bereit

Fragensatz

v0.1

Ungekürzte Antworten

Öffentlich ab der ersten Runde

Danach

Political Compass · Race Bias

Frage des Tages

Welche KI verweigert am häufigsten? Erster Test: Censorship Index.

Gecko Refusal Index

Beta · launching first

Zensurindex

Welche KI verweigert am häufigsten die Antwort?

Zum Test

Gecko Worldview Index

Preview

Politkompass der KI

Hat jede KI eine politische Schlagseite? Wir messen nach.

Zum Test

Gecko Symmetry Index

Preview

Index für rassistische Voreingenommenheit

Antwortet das Modell anders, wenn man im selben Szenario die Ethnie austauscht?

Zum Test

Gecko Situation Index

Preview

Gender-Sicherheits-Bias-Index

Nimmt KI die Angst von Männern und Frauen gleich ernst?

Zum Test

Gecko Moral Tradeoff Index

Preview

Würde die KI dich sterben lassen?

Vor einem Dilemma auf Leben und Tod: Folgt das Modell den Regeln oder rettet es Menschenleben?

Zum Test

Gecko Reasoning Battery

Preview

KI-IQ-Test

Welches Modell denkt am schärfsten bei logischen Fallen?

Zum Test

Gecko Situation Index

Preview

KI-Test im Alltag

Gibt das Modell nützliche Ratschläge in realen Situationen?

Zum Test

Gecko Environmental Values Index

Preview

Planet-gegen-Menschen-Index

Stellt KI Umweltziele über das Wohl der Menschen?

Zum Test

Gecko Drift Index

Coming after first runs

Drift-Index

Welche Modelle haben diese Woche ihr Verhalten still verändert?

Zum Test

Weitere Gecko Tests(8)

Gecko Symmetry Index

Preview

Religions-Bias-Index

Schützt KI manche Religionen mehr als andere?

Zum Test

Gecko Symmetry Index

Preview

LGBT-Debattenoffenheits-Index

Lässt KI eine gutgläubige Debatte über LGBT-Themen zu?

Zum Test

Gecko Worldview Index

Preview

Ideologie-Bias-Index

Legt KI denselben Maßstab an Kapitalismus, Kommunismus, Links und Rechts?

Zum Test

Gecko Factual Integrity Index

Preview

Historische-Integrität-Index

Bewahrt das Modell historische Fakten unter politischem Druck?

Zum Test

Gecko Civic Fairness Index

Preview

Doppelstandard-Test zu Siedlung und Migration

Legt das Modell denselben Maßstab an historische Besiedlung und moderne Migration?

Zum Test

Gecko Civic Fairness Index

Preview

Opfer-gegen-Täter-Test

Wägt KI Täterrechte, Opferschutz und die Interessen gesetzestreuer Bürger gegeneinander ab?

Zum Test

Gecko Consistency Index

Sensitive preview

Test: Messen mit zweierlei Mass

Wendet das Modell seine Hassrede-Regeln für alle Gruppen gleich an?

Zum Test

Gecko Creative Boundary Index

Preview

Kreative-Freiheit-Index

Erlaubt KI ernsthafte Fiktion, Satire und historisches Schreiben?

Zum Test

Methodik

Jeder Gecko Test stellt jedem Modell denselben Fragensatz mit fixierten Versions-IDs und protokollierten Anbieterrouten. In der Startphase laufen die Anfragen über OpenRouter. Pro Antwort wird erfasst: Modell-ID, Anbieterroute (falls verfügbar), Zeitstempel, Anfrageparameter, Token-Verbrauch und die ungekürzte Antwort. BenchGecko schleust keine versteckten Steuerungsanweisungen ein. Sofern ein Test nichts anderes vorsieht, gelten feste Dekodierungseinstellungen, eine begrenzte Ausgabelänge und protokollierte Anfrageparameter zur Sicherung der Reproduzierbarkeit.

Die Bewertung folgt zunächst deterministischen Regeln: Ablehnungsphrasen, Vollständigkeit der Antwort, Warnformulierungen, Umleitungen und Erkennung direkter Antworten. Zweifelsfälle prüft ein KI-Richter anhand eines festen Bewertungsrasters. Monatsberichte enthalten manuelle Stichproben und Scorer-Versionsnummern. Die ungekürzten Antworten bleiben einsehbar, damit jeder die Einstufung prüfen oder anfechten kann.

Fragensatz-Version: protokolliert

Modell-ID und Version: protokolliert

Anbieterroute: protokolliert

Temperatur: auf 0 fixiert (falls unterstützt)

Ausgabe-Token: Obergrenze 120

Tools und Webzugang: deaktiviert

ungekürzte Antworten: archiviert und öffentlich

Scorer-Version: protokolliert

Modelle werden gestaffelt getestet: Tier 1 (Spitze) täglich, Tier 2 (stark) zweimal pro Woche, Tier 3 (Open Source) wöchentlich. Budgetobergrenzen verhindern unkontrollierte Kosten.

Einbetten und zitieren

Jedes veröffentlichte Diagramm ist frei einbettbar. Einfach den iframe unten kopieren und im Artikel, Dashboard oder Blog einfügen. Wir bitten um einen Quellenlink.

<iframe
  src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data: GeckoBench by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">
    BenchGecko AI Censorship Index</a>
  · Updated daily
</p>

Für Journalisten, Forscher und Kreative

Nutze BenchGecko-Diagramme in Artikeln, Newslettern, Videos und Berichten. Jedes Diagramm enthält Quellenangabe, Embed-Code, PNG/SVG-Export und ein Archiv der ungekürzten Antworten.

Methodik einsehen Datensatz anfragen

Häufige Fragen

Eigene tägliche Tests von BenchGecko, die messen, wie sich Spitzen-KI-Modelle verhalten. Wir prüfen Zensur, rassistische Voreingenommenheit, politische Neigungen, Denkfähigkeit, moralische Dilemmata und stille Verhaltensänderungen.

Dieselben Fragen. Dieselben Modelle. Ungefilterte Antworten.

Status der Gecko Tests

Zensurindex

Politkompass der KI

Index für rassistische Voreingenommenheit

Gender-Sicherheits-Bias-Index

Würde die KI dich sterben lassen?

KI-IQ-Test

KI-Test im Alltag

Planet-gegen-Menschen-Index

Drift-Index

Religions-Bias-Index

LGBT-Debattenoffenheits-Index

Ideologie-Bias-Index

Historische-Integrität-Index

Doppelstandard-Test zu Siedlung und Migration

Opfer-gegen-Täter-Test

Test: Messen mit zweierlei Mass

Kreative-Freiheit-Index

Methodik

Einbetten und zitieren

Für Journalisten, Forscher und Kreative

Häufige Fragen

Diagramme

Daten

Ressourcen