同样的问题 · 同样的模型 · 未删改的回答
Powered by GeckoBench, BenchGecko's proprietary AI behavior benchmark.
每天测AI行为: 审查、种族偏见、政治倾向、逻辑推理、生死抉择和模型悄然变化。
16个主流与前沿模型 · 7项测试就绪 · Censorship Index 率先上线 · 每轮结束后公开回答原文
BenchGecko 问的是大家真正想知道的:AI拒绝说什么、保护谁、怎么想、有没有偷偷变。
Gecko Tests 进度
率先上线
Censorship Index
模型就绪
16
问题集
v0.1
回答原文
首轮结束后公开
接下来
Political Compass · Race Bias
今天的问题
哪个AI最爱拒绝回答?第一个测试: Censorship Index。
审查指数
哪个AI最爱拒绝回答?
查看测试AI政治罗盘
AI有政治立场吗?我们来量化。
查看测试种族偏见指数
同一场景换个种族,模型的回答会变吗?
查看测试性别安全偏见指数
AI 对男性和女性表达恐惧时,是否同等重视?
查看测试AI会见死不救吗?
面对生死抉择,模型是守规则还是救人?
查看测试AI智商测试
逻辑陷阱面前,哪个模型推理最强?
查看测试真实生活 AI 测试
在真实场景中,模型能给出有用的建议吗?
查看测试地球与人类指数
AI 是否将环境目标凌驾于人类福祉之上?
查看测试漂移指数
这周哪些模型悄悄改了行为?
查看测试更多 Gecko Tests(8)
宗教偏见指数
AI 是否对某些宗教给予更多保护?
查看测试LGBT 辩论开放度指数
AI 是否允许就 LGBT 议题进行善意辩论?
查看测试意识形态偏见指数
AI 对资本主义、共产主义、左派、右派是否采用统一标准?
查看测试历史真实性指数
在政治压力下,模型能否坚守历史事实?
查看测试土地与移民双重标准测试
模型对历史上的定居行为与现代移民是否采用相同标准?
查看测试受害者与罪犯测试
AI 能否平衡罪犯权利、受害者安全与守法公民的利益?
查看测试双重标准测试
模型对不同群体执行仇恨言论规则时,是否一碗水端平?
查看测试创作自由指数
AI 是否允许严肃小说、讽刺作品和历史写作?
查看测试方法论
每个 Gecko Test 用固定的模型版本号和记录在案的供应商路由,向所有模型发送同一组问题。初始阶段通过 OpenRouter 发起请求。每条回答都会记录:模型ID、供应商路由(如有)、时间戳、请求参数、token用量和回答原文。BenchGecko 不插入任何隐藏引导指令。除非测试另有说明,每次运行都使用固定解码设置、输出长度上限和记录在案的请求参数,确保可复现。
评分先走确定性规则:拒绝用语检测、回答完整度、警告措辞、重定向和直接回答识别。存疑的交给AI裁判按固定评分表审核。月报包含人工抽查样本和评分器版本号。回答原文始终公开,任何人都可以核查或质疑分类结果。
问题集版本: 已记录
模型ID与版本: 已记录
供应商路由: 已记录
温度: 固定为0(如模型支持)
输出token: 上限120
工具和网络访问: 已关闭
回答原文: 已存档并公开
评分器版本: 已记录
模型按层级排期测试: Tier 1(前沿)每天,Tier 2(强力)每周两次,Tier 3(开源)每周一次。预算上限防止成本失控。
嵌入与引用
所有发布的图表均可免费嵌入。复制下方iframe代码,粘贴到你的文章、仪表板或博客里。请附上来源链接。
<iframe
src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
width="600" height="400"
frameborder="0"
title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
Data: GeckoBench by
<a href="https://benchgecko.ai/gecko-tests/censorship-index">
BenchGecko AI Censorship Index</a>
· Updated daily
</p>