Tägliche KI-Tests · Verhaltensdaten · Diagramme, die überall zitiert werden
Powered by GeckoBench · BenchGecko's proprietary AI behavior benchmark.
Jeden Tag stellen wir allen Spitzenmodellen dieselben Fragen. Ungefilterte Antworten. Öffentliche Diagramme. Nachnutzbare Daten. Die Transparenzschicht für KI, die sonst niemand baut.
GeckoBench
The benchmark engine behind Gecko Tests. 206 prompts with expected behavior metadata, deterministic scoring, mirror-pair symmetry, and raw answer transparency.
206
Prompts
16
Models
18
Test families
Was genau macht BenchGecko Labs?
Herkömmliche Benchmarks messen, was ein Modell kann. Labs misst, wie es sich verhält. Wir verfolgen Zensurmuster, Bias-Asymmetrien, politische Neigungen, moralische Dilemmata und stille Verhaltensänderungen, die Standardbenchmarks komplett übersehen.
Jeder Test stellt jedem Modell täglich dieselben Fragen. Die Ergebnisse werden bewertet, visualisiert und mitsamt aller ungekürzten Antworten veröffentlicht. Keine Blackbox. Keine redaktionelle Meinung. Nur Daten.
Jedes Diagramm lässt sich mit einer Zeile Code einbetten. Jeder Datensatz ist im APA- und BibTeX-Format zitierbar. Gemacht für Journalisten, Forscher und alle, die wissen wollen, was KI wirklich tut.
Ausgewählte Tests
Zensurindex
Welche KI verweigert am häufigsten die Antwort?
Zum TestPolitkompass der KI
Hat jede KI eine politische Schlagseite? Wir messen nach.
Zum TestIndex für rassistische Voreingenommenheit
Antwortet das Modell anders, wenn man im selben Szenario die Ethnie austauscht?
Zum TestWürde die KI dich sterben lassen?
Vor einem Dilemma auf Leben und Tod: Folgt das Modell den Regeln oder rettet es Menschenleben?
Zum TestKI-IQ-Test
Welches Modell denkt am schärfsten bei logischen Fallen?
Zum TestKI-Test im Alltag
Gibt das Modell nützliche Ratschläge in realen Situationen?
Zum Test