BenchGecko Labs

毎日のAIテスト · 行動データ · あちこちで引用されるチャート

Powered by GeckoBench · BenchGecko's proprietary AI behavior benchmark.

毎日、主要モデルすべてに同じ質問を投げています。回答はそのまま公開。チャートもオープン。データも自由に使えます。AIの透明性を追うレイヤーは、ここにしかありません。

The benchmark engine behind Gecko Tests. 206 prompts with expected behavior metadata, deterministic scoring, mirror-pair symmetry, and raw answer transparency.

Prompts

Models

Test families

従来のベンチマークは「モデルに何ができるか」を測ります。Labsは「モデルがどう振る舞うか」を測ります。検閲パターン、バイアスの偏り、政治的傾向、道徳的ジレンマ、静かな挙動変化など、通常のベンチマークではまったく見えないものを追跡しています。

各テストは、毎日すべてのモデルに同じ質問を投げます。結果はスコアリングされ、チャート化され、回答の全文とともに公開されます。ブラックボックスなし。編集意見なし。あるのはデータだけです。

チャートはすべて1行のコードで埋め込み可能。データセットはAPA・BibTeX形式で引用できます。記者、研究者、AIの実態を知りたいすべての人のために。

BenchGecko Labsは、AIモデルに独自の日次テストを実施し、検閲、バイアス、政治的傾向、推論力、道徳的判断、挙動変化を計測しています。同じ質問、同じモデル、毎日。