BenchGecko Labs

Tägliche KI-Tests, Verhaltensdaten und Diagramme, die zitiert werden

Wir senden die gleichen Prompts an jedes Frontier-Modell, jeden Tag. Rohe Antworten. Öffentliche Diagramme. Einbettbare Daten. Die KI-Verhaltensschicht, die sonst niemand baut.

Live-Signale erscheinen hier, sobald die Gecko Tests aktiv sind. Erster Test: Censorship Index.

Traditionelle Benchmarks messen die Leistung eines Modells. Labs misst sein Verhalten. Wir verfolgen Zensurmuster, Bias-Asymmetrien, politische Orientierungen, moralisches Denken und Verhaltensabweichungen, die Standard-Benchmarks komplett übersehen.

Jeder Test sendet die gleichen Prompts an jedes Modell, jeden Tag. Ergebnisse werden bewertet, grafisch dargestellt und mit allen rohen Antworten veröffentlicht. Keine Black Box. Kein redaktioneller Spin. Nur Daten.

Jedes Diagramm ist mit einer Zeile Code einbettbar. Jeder Datensatz ist im APA- und BibTeX-Format zitierbar. Entwickelt für Journalisten, Forscher und alle, die verfolgen, wie sich KI tatsächlich verhält.

BenchGecko Labs führt proprietäre tägliche Tests an KI-Modellen durch, um Zensur, Bias, politische Orientierung, Denkfähigkeit, moralische Entscheidungsfindung und Verhaltensabweichungen zu messen. Gleiche Prompts, gleiche Modelle, jeden Tag.