各Gecko Testは、固定バージョンIDと記録済みプロバイダールートを使い、全モデルに同じ質問セットを送信します。初期フェーズではOpenRouter経由で実行しています。各回答について、モデルID、プロバイダールート（取得可能な場合）、タイムスタンプ、リクエストパラメータ、トークン消費量、回答全文を記録します。BenchGeckoは裏で誘導プロンプトを追加しません。テスト側で別途指定がない限り、固定デコード設定・出力長上限・記録済みリクエストパラメータで実行し、再現性を確保しています。

回答はまず決定論的ルールで採点します: 拒否表現の検出、回答の完全性、警告文言、リダイレクト、直接回答の有無。判断が分かれるケースは固定ルーブリックに基づくAIジャッジが評価します。月次レポートには手動監査サンプルとスコアラーのバージョン番号を含みます。回答全文は誰でも確認・異議申し立てができるよう公開しています。

質問セットのバージョン: 記録済み

モデルIDとバージョン: 記録済み

プロバイダールート: 記録済み

温度: 0固定（対応モデルの場合）

出力トークン: 上限120

ツール・Web接続: 無効

回答全文: アーカイブ済み・公開

スコアラーバージョン: 記録済み

テストは階層別スケジュールで実施: Tier 1（最先端）毎日、Tier 2（強力）週2回、Tier 3（オープンソース）週1回。予算上限がコスト暴走を防ぎます。

埋め込み・引用

公開チャートはすべて自由にembed可能です。下のiframeをコピーして記事やダッシュボード、ブログに貼り付けてください。クレジットリンクをお願いしています。

<iframe
  src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data: GeckoBench by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">
    BenchGecko AI Censorship Index</a>
  · Updated daily
</p>

記者・研究者・クリエイターの方へ

記事、ニュースレター、動画、レポートにBenchGeckoのチャートをお使いいただけます。各チャートには引用、embedコード、PNG/SVGエクスポート、回答全文アーカイブが含まれています。

方法論を確認するデータセットをリクエスト

よくある質問

BenchGeckoが主要AIモデルに対して毎日実施する独自テストです。検閲行動、人種バイアス、政治的傾向、推論力、道徳的判断、静かな挙動変化を計測しています。

同じ質問 · 同じモデル · 無編集の回答

Gecko Testsの進捗

検閲インデックス

AI政治コンパス

人種バイアス・インデックス

ジェンダー安全バイアス指数

AIはあなたを見殺しにするか？

AI IQテスト

リアルライフ AIテスト

地球 vs 人間 指数

ドリフト・インデックス

宗教バイアス指数

LGBTディベート開放性指数

イデオロギーバイアス指数

歴史的誠実性指数

土地と移民のダブルスタンダード検証

被害者 vs 加害者 テスト

ダブルスタンダード・テスト

創作自由度指数

方法論

埋め込み・引用

記者・研究者・クリエイターの方へ

よくある質問

チャート

データ

リソース

地球 vs 人間指数

被害者 vs 加害者テスト