Gecko Tests

同じ質問 · 同じモデル · 無編集の回答

Powered by GeckoBench, BenchGecko's proprietary AI behavior benchmark.

AIの行動を毎日テスト: 検閲、人種バイアス、政治的傾向、論理力、生死を分ける判断、そして静かなモデル変更。

主要・普及モデル16種 · 7テスト準備完了 · Censorship Indexが先行公開 · 毎回の実行後に回答全文を公開

BenchGeckoは、みんなが本当に知りたい問いを投げかけます。AIが何を断るのか、誰を守るのか、何を考えているのか、そしてこっそり変わっていないか。

最初に公開

Censorship Index

モデル準備完了

16

質問セット

v0.1

回答全文

初回実行後に公開

次の予定

Political Compass · Race Bias

今日の問い

各Gecko Testは、固定バージョンIDと記録済みプロバイダールートを使い、全モデルに同じ質問セットを送信します。初期フェーズではOpenRouter経由で実行しています。各回答について、モデルID、プロバイダールート(取得可能な場合)、タイムスタンプ、リクエストパラメータ、トークン消費量、回答全文を記録します。BenchGeckoは裏で誘導プロンプトを追加しません。テスト側で別途指定がない限り、固定デコード設定・出力長上限・記録済みリクエストパラメータで実行し、再現性を確保しています。

回答はまず決定論的ルールで採点します: 拒否表現の検出、回答の完全性、警告文言、リダイレクト、直接回答の有無。判断が分かれるケースは固定ルーブリックに基づくAIジャッジが評価します。月次レポートには手動監査サンプルとスコアラーのバージョン番号を含みます。回答全文は誰でも確認・異議申し立てができるよう公開しています。

質問セットのバージョン: 記録済み

モデルIDとバージョン: 記録済み

プロバイダールート: 記録済み

温度: 0固定(対応モデルの場合)

出力トークン: 上限120

ツール・Web接続: 無効

回答全文: アーカイブ済み・公開

スコアラーバージョン: 記録済み

テストは階層別スケジュールで実施: Tier 1(最先端)毎日、Tier 2(強力)週2回、Tier 3(オープンソース)週1回。予算上限がコスト暴走を防ぎます。

公開チャートはすべて自由にembed可能です。下のiframeをコピーして記事やダッシュボード、ブログに貼り付けてください。クレジットリンクをお願いしています。

<iframe
  src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data: GeckoBench by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">
    BenchGecko AI Censorship Index</a>
  · Updated daily
</p>

記事、ニュースレター、動画、レポートにBenchGeckoのチャートをお使いいただけます。各チャートには引用、embedコード、PNG/SVGエクスポート、回答全文アーカイブが含まれています。

方法論を確認するデータセットをリクエスト
BenchGeckoが主要AIモデルに対して毎日実施する独自テストです。検閲行動、人種バイアス、政治的傾向、推論力、道徳的判断、静かな挙動変化を計測しています。