Gecko Tests

Mêmes questions. Mêmes modèles. Réponses brutes.

Tests quotidiens du comportement des IA : censure, biais raciaux, orientation politique, QI, choix vitaux et dérive des modèles.

16 modèles de pointe et grand public · 7 tests prêts · Censorship Index en premier · réponses brutes rendues publiques après chaque passage

BenchGecko pose les questions que tout le monde se pose vraiment : ce que l'IA refuse de dire, qui elle protège, ce qu'elle pense, et si elle change en douce.

État des Gecko Tests

Lance en premier

Censorship Index

Modèles prêts

Jeu de questions

v0.1

Réponses brutes

Publiques dès le premier passage

Ensuite

Political Compass · Race Bias

La question du jour

Quelle IA refuse le plus de répondre ? Premier test : Censorship Index.

Gecko Refusal Index

Beta · launching first

Indice de censure

Quelle IA refuse le plus de répondre ?

Voir le test

Gecko Worldview Index

Preview

Boussole politique de l'IA

Chaque IA a-t-elle un bord politique ? On le mesure.

Voir le test

Gecko Symmetry Index

Preview

Indice de biais racial

Le modèle répond-il différemment quand on change l'origine ethnique dans un même scénario ?

Voir le test

Gecko Situation Index

Preview

Indice de biais de sécurité genrée

L'IA prend-elle aussi au sérieux la peur d'un homme que celle d'une femme ?

Voir le test

Gecko Moral Tradeoff Index

Preview

L'IA vous laisserait-elle mourir ?

Face à un dilemme vital, le modèle suit-il les règles ou sauve-t-il des vies ?

Voir le test

Gecko Reasoning Battery

Preview

Test de QI des IA

Quel modèle raisonne le mieux face à des pièges logiques ?

Voir le test

Gecko Situation Index

Preview

Test IA du quotidien

Le modèle donne-t-il des conseils utiles face à des situations concrètes ?

Voir le test

Gecko Environmental Values Index

Preview

Indice Planète contre Humains

L'IA fait-elle passer les objectifs environnementaux avant le bien-être humain ?

Voir le test

Gecko Drift Index

Coming after first runs

Indice de dérive

Quels modèles ont changé de comportement sans prévenir cette semaine ?

Voir le test

Autres Gecko Tests(8)

Gecko Symmetry Index

Preview

Indice de biais religieux

L'IA protège-t-elle certaines religions plus que d'autres ?

Voir le test

Gecko Symmetry Index

Preview

Indice d'ouverture au débat LGBT

L'IA autorise-t-elle un débat de bonne foi sur les questions LGBT ?

Voir le test

Gecko Worldview Index

Preview

Indice de biais idéologique

L'IA applique-t-elle le même standard au capitalisme, au communisme, à la gauche et à la droite ?

Voir le test

Gecko Factual Integrity Index

Preview

Indice d'intégrité historique

Le modèle préserve-t-il les faits historiques face aux pressions politiques ?

Voir le test

Gecko Civic Fairness Index

Preview

Test du double standard territoire et migration

Le modèle applique-t-il le même standard à la colonisation historique et à la migration moderne ?

Voir le test

Gecko Civic Fairness Index

Preview

Test Victimes contre Criminels

L'IA équilibre-t-elle les droits des auteurs, la sécurité des victimes et les citoyens respectueux des lois ?

Voir le test

Gecko Consistency Index

Sensitive preview

Test du deux poids, deux mesures

Le modèle applique-t-il ses règles sur la haine de la même façon pour tous les groupes ?

Voir le test

Gecko Creative Boundary Index

Preview

Indice de liberté créative

L'IA autorise-t-elle la fiction sérieuse, la satire et l'écriture historique ?

Voir le test

Méthodologie

Chaque Gecko Test soumet le même jeu de questions à chaque modèle, avec des identifiants de version figés et des routes fournisseur tracées. En phase de lancement, les appels passent par OpenRouter. Pour chaque réponse, on enregistre : identifiant du modèle, route fournisseur (si disponible), horodatage, paramètres de requête, nombre de tokens et réponse intégrale. BenchGecko n'injecte aucune instruction de guidage cachée. Sauf mention contraire, chaque exécution utilise des réglages de décodage fixes, une longueur de réponse plafonnée et des paramètres enregistrés pour garantir la reproductibilité.

Le scoring suit d'abord des règles déterministes : détection de refus, complétude de la réponse, avertissements, redirections, réponse directe. Les cas ambigus sont revus par un juge IA avec une grille fixe. Les rapports mensuels incluent des échantillons vérifiés manuellement et les numéros de version des scoreurs. Les réponses brutes restent accessibles pour que chacun puisse vérifier ou contester les classifications.

version du jeu de questions : tracée

identifiant et version du modèle : tracés

route fournisseur : tracée

température : fixée à 0 (si supporté)

tokens de sortie : plafonné à 120

outils et accès web : désactivés

réponses brutes : archivées et publiques

version du scoreur : tracée

Les modèles sont testés par paliers : Tier 1 (pointe) tous les jours, Tier 2 (performants) deux fois par semaine, Tier 3 (open source) chaque semaine. Des plafonds de budget contrôlent les dépenses.

Intégrer et citer

Chaque graphique publié sera librement intégrable. Copiez l'iframe ci-dessous et collez-le dans votre article, dashboard ou blog. Un lien d'attribution est demandé.

<iframe
  src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data: GeckoBench by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">
    BenchGecko AI Censorship Index</a>
  · Updated daily
</p>

Pour les journalistes, chercheurs et créateurs

Reprenez les graphiques BenchGecko dans vos articles, newsletters, vidéos ou rapports. Chaque graphique inclut citation, code d'intégration, export PNG/SVG et archive des réponses brutes.

Consulter la méthodologie Demander un jeu de données

Questions fréquentes

Des tests quotidiens conçus par BenchGecko pour mesurer le comportement des IA de pointe. On y évalue la censure, les biais raciaux, les penchants politiques, la capacité de raisonnement, les arbitrages moraux et les changements silencieux de comportement.

Mêmes questions. Mêmes modèles. Réponses brutes.

État des Gecko Tests

Indice de censure

Boussole politique de l'IA

Indice de biais racial

Indice de biais de sécurité genrée

L'IA vous laisserait-elle mourir ?

Test de QI des IA

Test IA du quotidien

Indice Planète contre Humains

Indice de dérive

Indice de biais religieux

Indice d'ouverture au débat LGBT

Indice de biais idéologique

Indice d'intégrité historique

Test du double standard territoire et migration

Test Victimes contre Criminels

Test du deux poids, deux mesures

Indice de liberté créative

Méthodologie

Intégrer et citer

Pour les journalistes, chercheurs et créateurs

Questions fréquentes

Graphiques

Données

Ressources