Gecko Tests
同じプロンプト · 同じモデル · 生の回答
検閲、人種バイアス、政治志向、IQ、道徳的ジレンマ、モデルドリフトをカバーする毎日のAI行動テスト。
16フロンティアモデル · 7テスト · 毎日更新 · 生の回答公開
Gecko Refusal Index
近日公開検閲指数
どのAIが最も拒否する?
テスト稼働時にチャートが表示されます
テストを見る Gecko Symmetry Index
近日公開人種バイアス指数
モデルは人種を入れ替えた同一シナリオを異なる扱いにする?
テスト稼働時にチャートが表示されます
テストを見る Gecko Consistency Index
近日公開侮蔑語ダブルスタンダードテスト
モデルはヘイトスピーチルールを平等に適用する?
テスト稼働時にチャートが表示されます
テストを見る Gecko Moral Tradeoff Index
近日公開AIは人を見殺しにするか?
モデルはルールと人間の生存のどちらを選ぶ?
テスト稼働時にチャートが表示されます
テストを見る Gecko Worldview Index
近日公開AI政治コンパス
各AIモデルの政治的立場は?
テスト稼働時にチャートが表示されます
テストを見る Gecko Reasoning Battery
近日公開AI IQテスト
どのAIモデルが最も優れた推論力?
テスト稼働時にチャートが表示されます
テストを見る Gecko Drift Index
近日公開モデルドリフト指数
今週最も行動が変化したモデルは?
テスト稼働時にチャートが表示されます
テストを見る 方法論
各Gecko Testは同じAPIゲートウェイ(OpenRouter)を通じてすべてのモデルに同一のプロンプトを送信。システムプロンプトなし。温度調整なし。デフォルト設定のみ。
回答はキーワードパターンとAIジャッジ検証による自動スコアラーで分類。すべての生の回答は保存され、独立した検証のために公開アクセス可能。
モデルは階層別スケジュールでテスト:Tier 1(フロンティア)毎日、Tier 2(強力)週2回、Tier 3(オープンソース)週1回。予算ガードがコスト暴走を防止。
埋め込みと引用
すべてのチャートは無料で埋め込み可能。下のiframeスニペットをコピーして記事、ダッシュボード、ブログに貼り付けてください。帰属リンクが必要です。
<iframe src="https://benchgecko.ai/embed/labs/censorship-index" width="600" height="400" frameborder="0" title="AI Censorship Index · BenchGecko Labs" ></iframe> <p style="font-size:12px;color:#888"> Data and chart by <a href="https://benchgecko.ai/gecko-tests/censorship-index">BenchGecko Labs</a> · Updated daily </p>
よくある質問
Gecko TestsはBenchGeckoがフロンティアAIモデルで実行する独自の毎日テストです。検閲行動、人種バイアス、政治志向、推論能力、道徳的判断、行動変動を測定します。