Tägliche KI-Tests, Verhaltensdaten und Diagramme, die zitiert werden
Wir senden die gleichen Prompts an jedes Frontier-Modell, jeden Tag. Rohe Antworten. Öffentliche Diagramme. Einbettbare Daten. Die KI-Verhaltensschicht, die sonst niemand baut.
Signal des Tages
Live-Signale erscheinen hier, sobald die Gecko Tests aktiv sind. Erster Test: Censorship Index.
Was ist BenchGecko Labs?
Traditionelle Benchmarks messen die Leistung eines Modells. Labs misst sein Verhalten. Wir verfolgen Zensurmuster, Bias-Asymmetrien, politische Orientierungen, moralisches Denken und Verhaltensabweichungen, die Standard-Benchmarks komplett übersehen.
Jeder Test sendet die gleichen Prompts an jedes Modell, jeden Tag. Ergebnisse werden bewertet, grafisch dargestellt und mit allen rohen Antworten veröffentlicht. Keine Black Box. Kein redaktioneller Spin. Nur Daten.
Jedes Diagramm ist mit einer Zeile Code einbettbar. Jeder Datensatz ist im APA- und BibTeX-Format zitierbar. Entwickelt für Journalisten, Forscher und alle, die verfolgen, wie sich KI tatsächlich verhält.
Ausgewählte Tests
Zensurindex
Welche KI verweigert am meisten?
Test ansehenRassenbias-Index
Behandelt das Modell identische rassengetauschte Szenarien unterschiedlich?
Test ansehenKI-Politkompass
Wo steht jedes KI-Modell politisch?
Test ansehenKI-IQ-Test
Welches KI-Modell denkt am besten?
Test ansehen