Gecko Tests

동일한 프롬프트 · 동일한 모델 · 원시 응답

검열, 인종 편향, 정치 성향, IQ, 도덕적 딜레마, 모델 드리프트를 다루는 매일 AI 행동 테스트.

16개 프론티어 모델 · 7개 테스트 · 매일 업데이트 · 원시 응답 공개

각 Gecko Test는 동일한 API 게이트웨이(OpenRouter)를 통해 모든 모델에 동일한 프롬프트를 전송합니다. 시스템 프롬프트 없음. 온도 조정 없음. 기본 설정만 사용.

응답은 키워드 패턴과 AI 심판 검증을 통한 자동 스코어러로 분류됩니다. 모든 원시 응답은 저장되어 독립적 검증을 위해 공개됩니다.

모델은 계층별 일정으로 테스트: Tier 1(프론티어) 매일, Tier 2(강력) 주 2회, Tier 3(오픈소스) 주 1회. 예산 가드가 비용 폭주를 방지.

모든 차트는 무료로 임베드 가능합니다. 아래 iframe 스니펫을 복사하여 기사, 대시보드 또는 블로그에 붙여넣으세요. 출처 링크 필요.

<iframe
  src="https://benchgecko.ai/embed/labs/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data and chart by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">BenchGecko Labs</a>
  · Updated daily
</p>
Gecko Tests는 BenchGecko가 프론티어 AI 모델에서 실행하는 독자적인 매일 테스트입니다. 검열 행동, 인종 편향, 정치 성향, 추론 능력, 도덕적 판단, 행동 변동을 측정합니다.