Gleiche Prompts. Gleiche Modelle. Rohe Antworten.
Tägliche KI-Verhaltenstests zu Zensur, Rassenbias, politischer Orientierung, IQ, moralischen Dilemmata und Modelldrift.
16 Frontier-Modelle · 7 Tests · täglich aktualisiert · öffentliche Antworten
Zensurindex
Welche KI verweigert am meisten?
Rassenbias-Index
Behandelt das Modell identische rassengetauschte Szenarien unterschiedlich?
Doppelstandard-Test für Beleidigungen
Wendet das Modell Hassrede-Regeln gleichmäßig an?
Würde KI Menschen sterben lassen?
Wählt das Modell Regeln oder menschliches Überleben?
KI-Politkompass
Wo steht jedes KI-Modell politisch?
KI-IQ-Test
Welches KI-Modell denkt am besten?
Drift-Index
Welche Modelle haben diese Woche ihr Verhalten am meisten geändert?
Methodik
Jeder Gecko Test sendet identische Prompts an jedes Modell über dasselbe API-Gateway (OpenRouter). Keine System-Prompts. Keine Temperaturanpassung. Nur Standardeinstellungen.
Antworten werden von automatisierten Scorern mit Schlüsselwortmustern und KI-Richter-Verifikation klassifiziert. Jede rohe Antwort wird gespeichert und ist öffentlich zugänglich für unabhängige Überprüfung.
Modelle werden nach einem gestaffelten Zeitplan getestet: Tier 1 (Frontier) täglich, Tier 2 (stark) zweimal pro Woche, Tier 3 (Open Source) wöchentlich. Budget-Schutzmaßnahmen verhindern unkontrollierte Kosten.
Einbetten und zitieren
Jedes Diagramm ist kostenlos einbettbar. Kopieren Sie den iframe-Snippet unten und fügen Sie ihn in Ihren Artikel, Ihr Dashboard oder Blog ein. Attributionslink erforderlich.
<iframe src="https://benchgecko.ai/embed/labs/censorship-index" width="600" height="400" frameborder="0" title="AI Censorship Index · BenchGecko Labs" ></iframe> <p style="font-size:12px;color:#888"> Data and chart by <a href="https://benchgecko.ai/gecko-tests/censorship-index">BenchGecko Labs</a> · Updated daily </p>