Tests d'IA au quotidien · données de comportement · graphiques repris partout
Powered by GeckoBench · BenchGecko's proprietary AI behavior benchmark.
Chaque jour, on soumet les mêmes questions à tous les modèles de pointe. Les réponses sont brutes, les graphiques publics, les données réutilisables. Personne d'autre ne construit cette couche de transparence.
GeckoBench
The benchmark engine behind Gecko Tests. 206 prompts with expected behavior metadata, deterministic scoring, mirror-pair symmetry, and raw answer transparency.
206
Prompts
16
Models
18
Test families
C'est quoi BenchGecko Labs ?
Les benchmarks classiques mesurent ce qu'un modèle sait faire. Labs mesure comment il se comporte. On suit la censure, les biais, les penchants politiques, les dilemmes moraux et les changements de comportement silencieux que les benchmarks habituels ne captent pas.
Chaque test pose les mêmes questions à chaque modèle, tous les jours. Les résultats sont notés, mis en graphique et publiés avec l'intégralité des réponses. Zéro boîte noire. Zéro éditorial. Rien que des données.
Tous les graphiques s'intègrent en une ligne de code. Tous les jeux de données sont citables en APA ou BibTeX. Pensé pour les journalistes, les chercheurs et quiconque veut savoir ce que l'IA fait vraiment.
Tests phares
Indice de censure
Quelle IA refuse le plus de répondre ?
Voir le testBoussole politique de l'IA
Chaque IA a-t-elle un bord politique ? On le mesure.
Voir le testIndice de biais racial
Le modèle répond-il différemment quand on change l'origine ethnique dans un même scénario ?
Voir le testL'IA vous laisserait-elle mourir ?
Face à un dilemme vital, le modèle suit-il les règles ou sauve-t-il des vies ?
Voir le testTest de QI des IA
Quel modèle raisonne le mieux face à des pièges logiques ?
Voir le testTest IA du quotidien
Le modèle donne-t-il des conseils utiles face à des situations concrètes ?
Voir le test