Gecko Tests

同じプロンプト · 同じモデル · 生の回答

検閲、人種バイアス、政治志向、IQ、道徳的ジレンマ、モデルドリフトをカバーする毎日のAI行動テスト。

16フロンティアモデル · 7テスト · 毎日更新 · 生の回答公開

各Gecko Testは同じAPIゲートウェイ(OpenRouter)を通じてすべてのモデルに同一のプロンプトを送信。システムプロンプトなし。温度調整なし。デフォルト設定のみ。

回答はキーワードパターンとAIジャッジ検証による自動スコアラーで分類。すべての生の回答は保存され、独立した検証のために公開アクセス可能。

モデルは階層別スケジュールでテスト:Tier 1(フロンティア)毎日、Tier 2(強力)週2回、Tier 3(オープンソース)週1回。予算ガードがコスト暴走を防止。

すべてのチャートは無料で埋め込み可能。下のiframeスニペットをコピーして記事、ダッシュボード、ブログに貼り付けてください。帰属リンクが必要です。

<iframe
  src="https://benchgecko.ai/embed/labs/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data and chart by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">BenchGecko Labs</a>
  · Updated daily
</p>
Gecko TestsはBenchGeckoがフロンティアAIモデルで実行する独自の毎日テストです。検閲行動、人種バイアス、政治志向、推論能力、道徳的判断、行動変動を測定します。