Mêmes questions. Mêmes modèles. Réponses brutes.
Powered by GeckoBench, BenchGecko's proprietary AI behavior benchmark.
Tests quotidiens du comportement des IA : censure, biais raciaux, orientation politique, QI, choix vitaux et dérive des modèles.
16 modèles de pointe et grand public · 7 tests prêts · Censorship Index en premier · réponses brutes rendues publiques après chaque passage
BenchGecko pose les questions que tout le monde se pose vraiment : ce que l'IA refuse de dire, qui elle protège, ce qu'elle pense, et si elle change en douce.
État des Gecko Tests
Lance en premier
Censorship Index
Modèles prêts
16
Jeu de questions
v0.1
Réponses brutes
Publiques dès le premier passage
Ensuite
Political Compass · Race Bias
La question du jour
Quelle IA refuse le plus de répondre ? Premier test : Censorship Index.
Indice de censure
Quelle IA refuse le plus de répondre ?
Voir le testBoussole politique de l'IA
Chaque IA a-t-elle un bord politique ? On le mesure.
Voir le testIndice de biais racial
Le modèle répond-il différemment quand on change l'origine ethnique dans un même scénario ?
Voir le testIndice de biais de sécurité genrée
L'IA prend-elle aussi au sérieux la peur d'un homme que celle d'une femme ?
Voir le testL'IA vous laisserait-elle mourir ?
Face à un dilemme vital, le modèle suit-il les règles ou sauve-t-il des vies ?
Voir le testTest de QI des IA
Quel modèle raisonne le mieux face à des pièges logiques ?
Voir le testTest IA du quotidien
Le modèle donne-t-il des conseils utiles face à des situations concrètes ?
Voir le testIndice Planète contre Humains
L'IA fait-elle passer les objectifs environnementaux avant le bien-être humain ?
Voir le testIndice de dérive
Quels modèles ont changé de comportement sans prévenir cette semaine ?
Voir le testAutres Gecko Tests(8)
Indice de biais religieux
L'IA protège-t-elle certaines religions plus que d'autres ?
Voir le testIndice d'ouverture au débat LGBT
L'IA autorise-t-elle un débat de bonne foi sur les questions LGBT ?
Voir le testIndice de biais idéologique
L'IA applique-t-elle le même standard au capitalisme, au communisme, à la gauche et à la droite ?
Voir le testIndice d'intégrité historique
Le modèle préserve-t-il les faits historiques face aux pressions politiques ?
Voir le testTest du double standard territoire et migration
Le modèle applique-t-il le même standard à la colonisation historique et à la migration moderne ?
Voir le testTest Victimes contre Criminels
L'IA équilibre-t-elle les droits des auteurs, la sécurité des victimes et les citoyens respectueux des lois ?
Voir le testTest du deux poids, deux mesures
Le modèle applique-t-il ses règles sur la haine de la même façon pour tous les groupes ?
Voir le testIndice de liberté créative
L'IA autorise-t-elle la fiction sérieuse, la satire et l'écriture historique ?
Voir le testMéthodologie
Chaque Gecko Test soumet le même jeu de questions à chaque modèle, avec des identifiants de version figés et des routes fournisseur tracées. En phase de lancement, les appels passent par OpenRouter. Pour chaque réponse, on enregistre : identifiant du modèle, route fournisseur (si disponible), horodatage, paramètres de requête, nombre de tokens et réponse intégrale. BenchGecko n'injecte aucune instruction de guidage cachée. Sauf mention contraire, chaque exécution utilise des réglages de décodage fixes, une longueur de réponse plafonnée et des paramètres enregistrés pour garantir la reproductibilité.
Le scoring suit d'abord des règles déterministes : détection de refus, complétude de la réponse, avertissements, redirections, réponse directe. Les cas ambigus sont revus par un juge IA avec une grille fixe. Les rapports mensuels incluent des échantillons vérifiés manuellement et les numéros de version des scoreurs. Les réponses brutes restent accessibles pour que chacun puisse vérifier ou contester les classifications.
version du jeu de questions : tracée
identifiant et version du modèle : tracés
route fournisseur : tracée
température : fixée à 0 (si supporté)
tokens de sortie : plafonné à 120
outils et accès web : désactivés
réponses brutes : archivées et publiques
version du scoreur : tracée
Les modèles sont testés par paliers : Tier 1 (pointe) tous les jours, Tier 2 (performants) deux fois par semaine, Tier 3 (open source) chaque semaine. Des plafonds de budget contrôlent les dépenses.
Intégrer et citer
Chaque graphique publié sera librement intégrable. Copiez l'iframe ci-dessous et collez-le dans votre article, dashboard ou blog. Un lien d'attribution est demandé.
<iframe
src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
width="600" height="400"
frameborder="0"
title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
Data: GeckoBench by
<a href="https://benchgecko.ai/gecko-tests/censorship-index">
BenchGecko AI Censorship Index</a>
· Updated daily
</p>Pour les journalistes, chercheurs et créateurs
Reprenez les graphiques BenchGecko dans vos articles, newsletters, vidéos ou rapports. Chaque graphique inclut citation, code d'intégration, export PNG/SVG et archive des réponses brutes.