BenchGecko Labs

每天测AI · 行为数据 · 到处被引用的图表

Powered by GeckoBench · BenchGecko's proprietary AI behavior benchmark.

每天,我们向所有主流模型问同样的问题。回答原文公开,图表免费使用,数据可复用。这是别人都没在做的AI透明度层。

The benchmark engine behind Gecko Tests. 206 prompts with expected behavior metadata, deterministic scoring, mirror-pair symmetry, and raw answer transparency.

Prompts

Models

Test families

传统基准测「模型能做什么」。Labs 测「模型怎么表现」。我们追踪审查规律、偏见的不对称、政治倾向、道德困境和悄悄发生的行为变化,这些都是常规基准完全看不到的。

每个测试每天向每个模型发送相同的问题。结果打分、画图、连同所有回答原文一起公开。没有黑箱,没有编辑立场,只有数据。

所有图表一行代码就能嵌入。所有数据集支持APA和BibTeX格式引用。为记者、研究者,以及想知道AI到底在做什么的每个人而做。

BenchGecko Labs 每天对AI模型做自研测试,衡量审查、偏见、政治倾向、推理能力、道德判断和行为变化。同样的问题,同样的模型,天天跑。