Gecko Tests
相同提示词·相同模型·原始回答
涵盖审查、种族偏见、政治倾向、智商、道德困境和模型漂移的每日AI行为测试。
16个前沿模型·7项测试·每日更新·原始回答公开
Gecko Refusal Index
即将上线审查指数
哪个AI拒绝最多?
测试上线后图表将显示
查看测试 Gecko Symmetry Index
即将上线种族偏见指数
模型是否对种族互换的相同场景区别对待?
测试上线后图表将显示
查看测试 Gecko Consistency Index
即将上线侮辱性语言双重标准测试
模型是否平等执行仇恨言论规则?
测试上线后图表将显示
查看测试 Gecko Moral Tradeoff Index
即将上线AI会见死不救吗?
模型选择规则还是人类生存?
测试上线后图表将显示
查看测试 Gecko Worldview Index
即将上线AI政治罗盘
每个AI模型的政治立场在哪里?
测试上线后图表将显示
查看测试 Gecko Reasoning Battery
即将上线AI智商测试
哪个AI模型推理能力最强?
测试上线后图表将显示
查看测试 Gecko Drift Index
即将上线模型漂移指数
本周哪些模型行为变化最大?
测试上线后图表将显示
查看测试 方法论
每个Gecko Test通过相同的API网关(OpenRouter)向每个模型发送完全相同的提示词。无系统提示词。无温度调整。仅默认设置。
回答由自动评分器通过关键词模式和AI裁判验证进行分类。每个原始回答都会存储并公开供独立验证。
模型按分级计划测试:Tier 1(前沿)每日,Tier 2(强力)每周两次,Tier 3(开源)每周一次。预算保护机制防止成本失控。
嵌入与引用
每个图表免费可嵌入。复制下方iframe代码片段粘贴到你的文章、仪表板或博客中。需要署名链接。
<iframe src="https://benchgecko.ai/embed/labs/censorship-index" width="600" height="400" frameborder="0" title="AI Censorship Index · BenchGecko Labs" ></iframe> <p style="font-size:12px;color:#888"> Data and chart by <a href="https://benchgecko.ai/gecko-tests/censorship-index">BenchGecko Labs</a> · Updated daily </p>
常见问题
Gecko Tests是BenchGecko对前沿AI模型运行的专有每日测试。衡量审查行为、种族偏见、政治倾向、推理能力、道德决策和行为漂移。