Gecko Tests

Mêmes questions. Mêmes modèles. Réponses brutes.

Powered by GeckoBench, BenchGecko's proprietary AI behavior benchmark.

Tests quotidiens du comportement des IA : censure, biais raciaux, orientation politique, QI, choix vitaux et dérive des modèles.

16 modèles de pointe et grand public · 7 tests prêts · Censorship Index en premier · réponses brutes rendues publiques après chaque passage

BenchGecko pose les questions que tout le monde se pose vraiment : ce que l'IA refuse de dire, qui elle protège, ce qu'elle pense, et si elle change en douce.

Lance en premier

Censorship Index

Modèles prêts

16

Jeu de questions

v0.1

Réponses brutes

Publiques dès le premier passage

Ensuite

Political Compass · Race Bias

La question du jour

Chaque Gecko Test soumet le même jeu de questions à chaque modèle, avec des identifiants de version figés et des routes fournisseur tracées. En phase de lancement, les appels passent par OpenRouter. Pour chaque réponse, on enregistre : identifiant du modèle, route fournisseur (si disponible), horodatage, paramètres de requête, nombre de tokens et réponse intégrale. BenchGecko n'injecte aucune instruction de guidage cachée. Sauf mention contraire, chaque exécution utilise des réglages de décodage fixes, une longueur de réponse plafonnée et des paramètres enregistrés pour garantir la reproductibilité.

Le scoring suit d'abord des règles déterministes : détection de refus, complétude de la réponse, avertissements, redirections, réponse directe. Les cas ambigus sont revus par un juge IA avec une grille fixe. Les rapports mensuels incluent des échantillons vérifiés manuellement et les numéros de version des scoreurs. Les réponses brutes restent accessibles pour que chacun puisse vérifier ou contester les classifications.

version du jeu de questions : tracée

identifiant et version du modèle : tracés

route fournisseur : tracée

température : fixée à 0 (si supporté)

tokens de sortie : plafonné à 120

outils et accès web : désactivés

réponses brutes : archivées et publiques

version du scoreur : tracée

Les modèles sont testés par paliers : Tier 1 (pointe) tous les jours, Tier 2 (performants) deux fois par semaine, Tier 3 (open source) chaque semaine. Des plafonds de budget contrôlent les dépenses.

Chaque graphique publié sera librement intégrable. Copiez l'iframe ci-dessous et collez-le dans votre article, dashboard ou blog. Un lien d'attribution est demandé.

<iframe
  src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data: GeckoBench by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">
    BenchGecko AI Censorship Index</a>
  · Updated daily
</p>

Reprenez les graphiques BenchGecko dans vos articles, newsletters, vidéos ou rapports. Chaque graphique inclut citation, code d'intégration, export PNG/SVG et archive des réponses brutes.

Consulter la méthodologieDemander un jeu de données
Des tests quotidiens conçus par BenchGecko pour mesurer le comportement des IA de pointe. On y évalue la censure, les biais raciaux, les penchants politiques, la capacité de raisonnement, les arbitrages moraux et les changements silencieux de comportement.