Gecko Tests

同样的问题 · 同样的模型 · 未删改的回答

Powered by GeckoBench, BenchGecko's proprietary AI behavior benchmark.

每天测AI行为: 审查、种族偏见、政治倾向、逻辑推理、生死抉择和模型悄然变化。

16个主流与前沿模型 · 7项测试就绪 · Censorship Index 率先上线 · 每轮结束后公开回答原文

BenchGecko 问的是大家真正想知道的:AI拒绝说什么、保护谁、怎么想、有没有偷偷变。

率先上线

Censorship Index

模型就绪

16

问题集

v0.1

回答原文

首轮结束后公开

接下来

Political Compass · Race Bias

今天的问题

每个 Gecko Test 用固定的模型版本号和记录在案的供应商路由,向所有模型发送同一组问题。初始阶段通过 OpenRouter 发起请求。每条回答都会记录:模型ID、供应商路由(如有)、时间戳、请求参数、token用量和回答原文。BenchGecko 不插入任何隐藏引导指令。除非测试另有说明,每次运行都使用固定解码设置、输出长度上限和记录在案的请求参数,确保可复现。

评分先走确定性规则:拒绝用语检测、回答完整度、警告措辞、重定向和直接回答识别。存疑的交给AI裁判按固定评分表审核。月报包含人工抽查样本和评分器版本号。回答原文始终公开,任何人都可以核查或质疑分类结果。

问题集版本: 已记录

模型ID与版本: 已记录

供应商路由: 已记录

温度: 固定为0(如模型支持)

输出token: 上限120

工具和网络访问: 已关闭

回答原文: 已存档并公开

评分器版本: 已记录

模型按层级排期测试: Tier 1(前沿)每天,Tier 2(强力)每周两次,Tier 3(开源)每周一次。预算上限防止成本失控。

所有发布的图表均可免费嵌入。复制下方iframe代码,粘贴到你的文章、仪表板或博客里。请附上来源链接。

<iframe
  src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data: GeckoBench by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">
    BenchGecko AI Censorship Index</a>
  · Updated daily
</p>

在文章、新闻简报、视频和报告中使用BenchGecko图表。每张图表都有引用信息、嵌入代码、PNG/SVG导出和回答原文存档。

查看方法论申请数据集
BenchGecko 自研的每日测试,衡量主流AI模型的实际行为。测审查、种族偏见、政治倾向、推理能力、道德判断以及悄然发生的行为变化。