Gecko Tests

相同提示词·相同模型·原始回答

涵盖审查、种族偏见、政治倾向、智商、道德困境和模型漂移的每日AI行为测试。

16个前沿模型·7项测试·每日更新·原始回答公开

每个Gecko Test通过相同的API网关(OpenRouter)向每个模型发送完全相同的提示词。无系统提示词。无温度调整。仅默认设置。

回答由自动评分器通过关键词模式和AI裁判验证进行分类。每个原始回答都会存储并公开供独立验证。

模型按分级计划测试:Tier 1(前沿)每日,Tier 2(强力)每周两次,Tier 3(开源)每周一次。预算保护机制防止成本失控。

每个图表免费可嵌入。复制下方iframe代码片段粘贴到你的文章、仪表板或博客中。需要署名链接。

<iframe
  src="https://benchgecko.ai/embed/labs/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data and chart by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">BenchGecko Labs</a>
  · Updated daily
</p>
Gecko Tests是BenchGecko对前沿AI模型运行的专有每日测试。衡量审查行为、种族偏见、政治倾向、推理能力、道德决策和行为漂移。