Mêmes prompts. Mêmes modèles. Réponses brutes.
Tests comportementaux IA quotidiens couvrant la censure, les biais raciaux, l'orientation politique, le QI, les dilemmes moraux et les dérives.
16 modèles frontier · 7 tests · mis à jour quotidiennement · réponses brutes publiques
Indice de censure
Quelle IA refuse le plus ?
Indice de biais racial
Le modèle traite-t-il des scénarios identiques avec races inversées différemment ?
Test du double standard des insultes
Le modèle applique-t-il les règles anti-haine de manière égale ?
L'IA laisserait-elle mourir des gens ?
Le modèle choisit-il les règles ou la survie humaine ?
Boussole politique IA
Où se situe chaque modèle IA politiquement ?
Test de QI IA
Quel modèle IA raisonne le mieux ?
Indice de dérive
Quels modèles ont le plus changé de comportement cette semaine ?
Méthodologie
Chaque Gecko Test envoie des prompts identiques à chaque modèle via la même passerelle API (OpenRouter). Pas de prompts système. Pas de réglage de température. Paramètres par défaut uniquement.
Les réponses sont classifiées par des scoreurs automatisés avec des patterns de mots-clés et une vérification par juge IA. Chaque réponse brute est stockée et accessible publiquement pour vérification indépendante.
Les modèles sont testés selon un calendrier par tiers : Tier 1 (frontier) quotidiennement, Tier 2 (forts) deux fois par semaine, Tier 3 (open source) chaque semaine. Des garde-fous budgétaires empêchent les coûts de s'emballer.
Intégrer et citer
Chaque graphique est intégrable gratuitement. Copiez le snippet iframe ci-dessous et collez-le dans votre article, tableau de bord ou blog. Lien d'attribution requis.
<iframe src="https://benchgecko.ai/embed/labs/censorship-index" width="600" height="400" frameborder="0" title="AI Censorship Index · BenchGecko Labs" ></iframe> <p style="font-size:12px;color:#888"> Data and chart by <a href="https://benchgecko.ai/gecko-tests/censorship-index">BenchGecko Labs</a> · Updated daily </p>