毎日のAIテスト · 行動データ · あちこちで引用されるチャート
Powered by GeckoBench · BenchGecko's proprietary AI behavior benchmark.
毎日、主要モデルすべてに同じ質問を投げています。回答はそのまま公開。チャートもオープン。データも自由に使えます。AIの透明性を追うレイヤーは、ここにしかありません。
GeckoBench
The benchmark engine behind Gecko Tests. 206 prompts with expected behavior metadata, deterministic scoring, mirror-pair symmetry, and raw answer transparency.
206
Prompts
16
Models
18
Test families
BenchGecko Labsって何?
従来のベンチマークは「モデルに何ができるか」を測ります。Labsは「モデルがどう振る舞うか」を測ります。検閲パターン、バイアスの偏り、政治的傾向、道徳的ジレンマ、静かな挙動変化など、通常のベンチマークではまったく見えないものを追跡しています。
各テストは、毎日すべてのモデルに同じ質問を投げます。結果はスコアリングされ、チャート化され、回答の全文とともに公開されます。ブラックボックスなし。編集意見なし。あるのはデータだけです。
チャートはすべて1行のコードで埋め込み可能。データセットはAPA・BibTeX形式で引用できます。記者、研究者、AIの実態を知りたいすべての人のために。
注目のテスト
検閲インデックス
一番答えを拒むAIはどれ?
テストを見るAI政治コンパス
AIには政治的偏りがある? 測定して確かめます。
テストを見る人種バイアス・インデックス
同じシナリオで人種だけ変えたとき、モデルの回答は変わるのか?
テストを見るAIはあなたを見殺しにするか?
生死がかかった場面で、モデルはルールを守るか、命を救うか?
テストを見るAI IQテスト
論理トラップを前にして最も鋭く推論するモデルは?
テストを見るリアルライフ AIテスト
実際の場面でモデルは役に立つアドバイスを出せる?
テストを見る