Dieselben Fragen. Dieselben Modelle. Ungefilterte Antworten.
Powered by GeckoBench, BenchGecko's proprietary AI behavior benchmark.
Tägliche Verhaltenstests für KI: Zensur, rassistische Voreingenommenheit, politische Neigung, logisches Denken, Entscheidungen über Leben und Tod und stille Modellveränderungen.
16 Spitzen- und Massenmodelle · 7 Tests bereit · Censorship Index startet zuerst · ungekürzte Antworten nach jeder Runde öffentlich
BenchGecko stellt die Fragen, die wirklich zählen: Was verweigert die KI? Wen schützt sie? Was denkt sie? Und ändert sie sich klammheimlich?
Status der Gecko Tests
Startet als Erstes
Censorship Index
Modelle bereit
16
Fragensatz
v0.1
Ungekürzte Antworten
Öffentlich ab der ersten Runde
Danach
Political Compass · Race Bias
Frage des Tages
Welche KI verweigert am häufigsten? Erster Test: Censorship Index.
Zensurindex
Welche KI verweigert am häufigsten die Antwort?
Zum TestPolitkompass der KI
Hat jede KI eine politische Schlagseite? Wir messen nach.
Zum TestIndex für rassistische Voreingenommenheit
Antwortet das Modell anders, wenn man im selben Szenario die Ethnie austauscht?
Zum TestGender-Sicherheits-Bias-Index
Nimmt KI die Angst von Männern und Frauen gleich ernst?
Zum TestWürde die KI dich sterben lassen?
Vor einem Dilemma auf Leben und Tod: Folgt das Modell den Regeln oder rettet es Menschenleben?
Zum TestKI-IQ-Test
Welches Modell denkt am schärfsten bei logischen Fallen?
Zum TestKI-Test im Alltag
Gibt das Modell nützliche Ratschläge in realen Situationen?
Zum TestPlanet-gegen-Menschen-Index
Stellt KI Umweltziele über das Wohl der Menschen?
Zum TestDrift-Index
Welche Modelle haben diese Woche ihr Verhalten still verändert?
Zum TestWeitere Gecko Tests(8)
Religions-Bias-Index
Schützt KI manche Religionen mehr als andere?
Zum TestLGBT-Debattenoffenheits-Index
Lässt KI eine gutgläubige Debatte über LGBT-Themen zu?
Zum TestIdeologie-Bias-Index
Legt KI denselben Maßstab an Kapitalismus, Kommunismus, Links und Rechts?
Zum TestHistorische-Integrität-Index
Bewahrt das Modell historische Fakten unter politischem Druck?
Zum TestDoppelstandard-Test zu Siedlung und Migration
Legt das Modell denselben Maßstab an historische Besiedlung und moderne Migration?
Zum TestOpfer-gegen-Täter-Test
Wägt KI Täterrechte, Opferschutz und die Interessen gesetzestreuer Bürger gegeneinander ab?
Zum TestTest: Messen mit zweierlei Mass
Wendet das Modell seine Hassrede-Regeln für alle Gruppen gleich an?
Zum TestKreative-Freiheit-Index
Erlaubt KI ernsthafte Fiktion, Satire und historisches Schreiben?
Zum TestMethodik
Jeder Gecko Test stellt jedem Modell denselben Fragensatz mit fixierten Versions-IDs und protokollierten Anbieterrouten. In der Startphase laufen die Anfragen über OpenRouter. Pro Antwort wird erfasst: Modell-ID, Anbieterroute (falls verfügbar), Zeitstempel, Anfrageparameter, Token-Verbrauch und die ungekürzte Antwort. BenchGecko schleust keine versteckten Steuerungsanweisungen ein. Sofern ein Test nichts anderes vorsieht, gelten feste Dekodierungseinstellungen, eine begrenzte Ausgabelänge und protokollierte Anfrageparameter zur Sicherung der Reproduzierbarkeit.
Die Bewertung folgt zunächst deterministischen Regeln: Ablehnungsphrasen, Vollständigkeit der Antwort, Warnformulierungen, Umleitungen und Erkennung direkter Antworten. Zweifelsfälle prüft ein KI-Richter anhand eines festen Bewertungsrasters. Monatsberichte enthalten manuelle Stichproben und Scorer-Versionsnummern. Die ungekürzten Antworten bleiben einsehbar, damit jeder die Einstufung prüfen oder anfechten kann.
Fragensatz-Version: protokolliert
Modell-ID und Version: protokolliert
Anbieterroute: protokolliert
Temperatur: auf 0 fixiert (falls unterstützt)
Ausgabe-Token: Obergrenze 120
Tools und Webzugang: deaktiviert
ungekürzte Antworten: archiviert und öffentlich
Scorer-Version: protokolliert
Modelle werden gestaffelt getestet: Tier 1 (Spitze) täglich, Tier 2 (stark) zweimal pro Woche, Tier 3 (Open Source) wöchentlich. Budgetobergrenzen verhindern unkontrollierte Kosten.
Einbetten und zitieren
Jedes veröffentlichte Diagramm ist frei einbettbar. Einfach den iframe unten kopieren und im Artikel, Dashboard oder Blog einfügen. Wir bitten um einen Quellenlink.
<iframe
src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
width="600" height="400"
frameborder="0"
title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
Data: GeckoBench by
<a href="https://benchgecko.ai/gecko-tests/censorship-index">
BenchGecko AI Censorship Index</a>
· Updated daily
</p>Für Journalisten, Forscher und Kreative
Nutze BenchGecko-Diagramme in Artikeln, Newslettern, Videos und Berichten. Jedes Diagramm enthält Quellenangabe, Embed-Code, PNG/SVG-Export und ein Archiv der ungekürzten Antworten.