BenchGecko Labs
每日AI测试·行为数据·被引用的图表
每天向每个前沿模型发送相同的提示词。原始回答。公开图表。可嵌入数据。没有其他人在构建的AI行为层。
今日信号
Gecko Tests上线后,实时信号将在此显示。首个测试:Censorship Index。
什么是BenchGecko Labs?
传统基准测试衡量模型的性能。Labs衡量模型的行为。我们追踪审查模式、偏见不对称、政治倾向、道德推理和行为漂移——这些是标准基准完全忽略的。
每项测试每天向每个模型发送相同的提示词。结果经过评分、图表化,并与所有原始回答一起发布。没有黑箱。没有编辑偏见。只有数据。
每个图表只需一行代码即可嵌入。每个数据集支持APA和BibTeX格式引用。专为记者、研究人员和关注AI实际行为的所有人打造。
精选测试
常见问题
BenchGecko Labs对AI模型运行专有的每日测试,衡量审查、偏见、政治倾向、推理能力、道德决策和行为漂移。相同提示词,相同模型,每天运行。