每个 Gecko Test 用固定的模型版本号和记录在案的供应商路由，向所有模型发送同一组问题。初始阶段通过 OpenRouter 发起请求。每条回答都会记录：模型ID、供应商路由（如有）、时间戳、请求参数、token用量和回答原文。BenchGecko 不插入任何隐藏引导指令。除非测试另有说明，每次运行都使用固定解码设置、输出长度上限和记录在案的请求参数，确保可复现。

评分先走确定性规则：拒绝用语检测、回答完整度、警告措辞、重定向和直接回答识别。存疑的交给AI裁判按固定评分表审核。月报包含人工抽查样本和评分器版本号。回答原文始终公开，任何人都可以核查或质疑分类结果。

问题集版本: 已记录

模型ID与版本: 已记录

供应商路由: 已记录

温度: 固定为0（如模型支持）

输出token: 上限120

工具和网络访问: 已关闭

回答原文: 已存档并公开

评分器版本: 已记录

模型按层级排期测试: Tier 1（前沿）每天，Tier 2（强力）每周两次，Tier 3（开源）每周一次。预算上限防止成本失控。

嵌入与引用

所有发布的图表均可免费嵌入。复制下方iframe代码，粘贴到你的文章、仪表板或博客里。请附上来源链接。

<iframe
  src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data: GeckoBench by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">
    BenchGecko AI Censorship Index</a>
  · Updated daily
</p>

记者、研究者和创作者专区

在文章、新闻简报、视频和报告中使用BenchGecko图表。每张图表都有引用信息、嵌入代码、PNG/SVG导出和回答原文存档。

查看方法论申请数据集

常见问题

BenchGecko 自研的每日测试，衡量主流AI模型的实际行为。测审查、种族偏见、政治倾向、推理能力、道德判断以及悄然发生的行为变化。

同样的问题 · 同样的模型 · 未删改的回答

Gecko Tests 进度

审查指数

AI政治罗盘

种族偏见指数

性别安全偏见指数

AI会见死不救吗？

AI智商测试

真实生活 AI 测试

地球与人类指数

漂移指数

宗教偏见指数

LGBT 辩论开放度指数

意识形态偏见指数

历史真实性指数

土地与移民双重标准测试

受害者与罪犯测试

双重标准测试

创作自由指数

方法论

嵌入与引用

记者、研究者和创作者专区

常见问题

图表

数据

资源