同じ質問 · 同じモデル · 無編集の回答
Powered by GeckoBench, BenchGecko's proprietary AI behavior benchmark.
AIの行動を毎日テスト: 検閲、人種バイアス、政治的傾向、論理力、生死を分ける判断、そして静かなモデル変更。
主要・普及モデル16種 · 7テスト準備完了 · Censorship Indexが先行公開 · 毎回の実行後に回答全文を公開
BenchGeckoは、みんなが本当に知りたい問いを投げかけます。AIが何を断るのか、誰を守るのか、何を考えているのか、そしてこっそり変わっていないか。
Gecko Testsの進捗
最初に公開
Censorship Index
モデル準備完了
16
質問セット
v0.1
回答全文
初回実行後に公開
次の予定
Political Compass · Race Bias
今日の問い
一番答えを拒むAIはどれ? 最初のテスト: Censorship Index。
検閲インデックス
一番答えを拒むAIはどれ?
テストを見るAI政治コンパス
AIには政治的偏りがある? 測定して確かめます。
テストを見る人種バイアス・インデックス
同じシナリオで人種だけ変えたとき、モデルの回答は変わるのか?
テストを見るジェンダー安全バイアス指数
AIは男性と女性が怖いと感じているとき、同じように真剣に受け止める?
テストを見るAIはあなたを見殺しにするか?
生死がかかった場面で、モデルはルールを守るか、命を救うか?
テストを見るAI IQテスト
論理トラップを前にして最も鋭く推論するモデルは?
テストを見るリアルライフ AIテスト
実際の場面でモデルは役に立つアドバイスを出せる?
テストを見る地球 vs 人間 指数
AIは環境目標を人間の福祉より優先する?
テストを見るドリフト・インデックス
今週、黙って挙動が変わったモデルはどれ?
テストを見るもっと見る · Gecko Tests(8)
宗教バイアス指数
AIは特定の宗教をより手厚く守る?
テストを見るLGBTディベート開放性指数
AIはLGBT問題について誠実な議論を許容する?
テストを見るイデオロギーバイアス指数
AIは資本主義・共産主義・左派・右派に同じ基準を当てている?
テストを見る歴史的誠実性指数
政治的圧力の下でもモデルは歴史的事実を守れる?
テストを見る土地と移民のダブルスタンダード検証
モデルは歴史的な入植と現代の移民に同じ基準を適用している?
テストを見る被害者 vs 加害者 テスト
AIは加害者の権利・被害者の安全・法を守る市民をバランスよく扱えている?
テストを見るダブルスタンダード・テスト
ヘイトスピーチのルールをすべてのグループに等しく適用しているか?
テストを見る創作自由度指数
AIはシリアスなフィクション・風刺・歴史的記述を許容する?
テストを見る方法論
各Gecko Testは、固定バージョンIDと記録済みプロバイダールートを使い、全モデルに同じ質問セットを送信します。初期フェーズではOpenRouter経由で実行しています。各回答について、モデルID、プロバイダールート(取得可能な場合)、タイムスタンプ、リクエストパラメータ、トークン消費量、回答全文を記録します。BenchGeckoは裏で誘導プロンプトを追加しません。テスト側で別途指定がない限り、固定デコード設定・出力長上限・記録済みリクエストパラメータで実行し、再現性を確保しています。
回答はまず決定論的ルールで採点します: 拒否表現の検出、回答の完全性、警告文言、リダイレクト、直接回答の有無。判断が分かれるケースは固定ルーブリックに基づくAIジャッジが評価します。月次レポートには手動監査サンプルとスコアラーのバージョン番号を含みます。回答全文は誰でも確認・異議申し立てができるよう公開しています。
質問セットのバージョン: 記録済み
モデルIDとバージョン: 記録済み
プロバイダールート: 記録済み
温度: 0固定(対応モデルの場合)
出力トークン: 上限120
ツール・Web接続: 無効
回答全文: アーカイブ済み・公開
スコアラーバージョン: 記録済み
テストは階層別スケジュールで実施: Tier 1(最先端)毎日、Tier 2(強力)週2回、Tier 3(オープンソース)週1回。予算上限がコスト暴走を防ぎます。
埋め込み・引用
公開チャートはすべて自由にembed可能です。下のiframeをコピーして記事やダッシュボード、ブログに貼り付けてください。クレジットリンクをお願いしています。
<iframe
src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
width="600" height="400"
frameborder="0"
title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
Data: GeckoBench by
<a href="https://benchgecko.ai/gecko-tests/censorship-index">
BenchGecko AI Censorship Index</a>
· Updated daily
</p>記者・研究者・クリエイターの方へ
記事、ニュースレター、動画、レポートにBenchGeckoのチャートをお使いいただけます。各チャートには引用、embedコード、PNG/SVGエクスポート、回答全文アーカイブが含まれています。