Tests IA quotidiens, données comportementales et graphiques cités
On envoie les mêmes prompts à chaque modèle frontier, chaque jour. Réponses brutes. Graphiques publics. Données intégrables. La couche comportementale IA que personne d'autre ne construit.
Signal du jour
Les signaux en direct apparaîtront ici quand les Gecko Tests seront actifs. Premier test : Censorship Index.
Qu'est-ce que BenchGecko Labs ?
Les benchmarks traditionnels mesurent les performances d'un modèle. Labs mesure son comportement. On traque les schémas de censure, les asymétries de biais, les orientations politiques, le raisonnement moral et les dérives comportementales que les benchmarks classiques ignorent.
Chaque test envoie les mêmes prompts à chaque modèle, chaque jour. Les résultats sont notés, mis en graphique et publiés avec toutes les réponses brutes. Pas de boîte noire. Pas de spin éditorial. Que des données.
Chaque graphique est intégrable en une ligne de code. Chaque dataset est citable en format APA et BibTeX. Conçu pour les journalistes, les chercheurs et tous ceux qui suivent le comportement réel de l'IA.
Tests en vedette
Indice de censure
Quelle IA refuse le plus ?
Voir le testIndice de biais racial
Le modèle traite-t-il des scénarios identiques avec races inversées différemment ?
Voir le testBoussole politique IA
Où se situe chaque modèle IA politiquement ?
Voir le testTest de QI IA
Quel modèle IA raisonne le mieux ?
Voir le test