BenchGecko Labs

每天测AI · 行为数据 · 到处被引用的图表

每天，我们向所有主流模型问同样的问题。回答原文公开，图表免费使用，数据可复用。这是别人都没在做的AI透明度层。

GeckoBench

The benchmark engine behind Gecko Tests. 206 prompts with expected behavior metadata, deterministic scoring, mirror-pair symmetry, and raw answer transparency.

206

Prompts

Models

Test families

BenchGecko Labs 是做什么的？

传统基准测「模型能做什么」。Labs 测「模型怎么表现」。我们追踪审查规律、偏见的不对称、政治倾向、道德困境和悄悄发生的行为变化，这些都是常规基准完全看不到的。

每个测试每天向每个模型发送相同的问题。结果打分、画图、连同所有回答原文一起公开。没有黑箱，没有编辑立场，只有数据。

在真实场景中，模型能给出有用的建议吗？

查看测试

所有 Gecko Tests

常见问题

BenchGecko Labs 每天对AI模型做自研测试，衡量审查、偏见、政治倾向、推理能力、道德判断和行为变化。同样的问题，同样的模型，天天跑。

每天测AI · 行为数据 · 到处被引用的图表

BenchGecko Labs 是做什么的？

重点测试

审查指数

AI政治罗盘

种族偏见指数

AI会见死不救吗？

AI智商测试

真实生活 AI 测试

常见问题

Gecko Tests

数据

资源