BenchGecko Labs

毎日のAIテスト · 行動データ · 引用されるチャート

毎日、同じプロンプトをすべてのフロンティアモデルに送信。生の回答。公開チャート。埋め込み可能なデータ。誰も構築していないAI行動レイヤー。

Gecko Testsが稼働するとライブシグナルがここに表示されます。最初のテスト: Censorship Index。

従来のベンチマークはモデルの性能を測定します。LabsはAIの行動を測定します。検閲パターン、バイアスの非対称性、政治的志向、道徳的推論、行動の変動を追跡します。標準ベンチマークが完全に見落とすものです。

各テストは毎日、すべてのモデルに同じプロンプトを送信します。結果はスコアリング、グラフ化され、すべての生の回答とともに公開されます。ブラックボックスなし。編集バイアスなし。データのみ。

すべてのチャートは1行のコードで埋め込み可能。すべてのデータセットはAPAとBibTeX形式で引用可能。ジャーナリスト、研究者、AIの実際の振る舞いを追う全ての人のために。

BenchGecko LabsはAIモデルの検閲、バイアス、政治的志向、推論能力、道徳的判断、行動変動を測定する独自の毎日テストを実行します。同じプロンプト、同じモデル、毎日。