BenchGecko Labs
每天测AI · 行为数据 · 到处被引用的图表
Powered by GeckoBench · BenchGecko's proprietary AI behavior benchmark.
每天,我们向所有主流模型问同样的问题。回答原文公开,图表免费使用,数据可复用。这是别人都没在做的AI透明度层。
GeckoBench
The benchmark engine behind Gecko Tests. 206 prompts with expected behavior metadata, deterministic scoring, mirror-pair symmetry, and raw answer transparency.
206
Prompts
16
Models
18
Test families
BenchGecko Labs 是做什么的?
传统基准测「模型能做什么」。Labs 测「模型怎么表现」。我们追踪审查规律、偏见的不对称、政治倾向、道德困境和悄悄发生的行为变化,这些都是常规基准完全看不到的。
每个测试每天向每个模型发送相同的问题。结果打分、画图、连同所有回答原文一起公开。没有黑箱,没有编辑立场,只有数据。
所有图表一行代码就能嵌入。所有数据集支持APA和BibTeX格式引用。为记者、研究者,以及想知道AI到底在做什么的每个人而做。
重点测试
Gecko Refusal Index
Beta审查指数
哪个AI最爱拒绝回答?
查看测试Gecko Worldview Index
PreviewAI政治罗盘
AI有政治立场吗?我们来量化。
查看测试Gecko Symmetry Index
Preview种族偏见指数
同一场景换个种族,模型的回答会变吗?
查看测试Gecko Moral Tradeoff Index
PreviewAI会见死不救吗?
面对生死抉择,模型是守规则还是救人?
查看测试Gecko Reasoning Battery
PreviewAI智商测试
逻辑陷阱面前,哪个模型推理最强?
查看测试Gecko Situation Index
Preview真实生活 AI 测试
在真实场景中,模型能给出有用的建议吗?
查看测试常见问题
BenchGecko Labs 每天对AI模型做自研测试,衡量审查、偏见、政治倾向、推理能力、道德判断和行为变化。同样的问题,同样的模型,天天跑。