Gecko Tests
동일한 프롬프트 · 동일한 모델 · 원시 응답
검열, 인종 편향, 정치 성향, IQ, 도덕적 딜레마, 모델 드리프트를 다루는 매일 AI 행동 테스트.
16개 프론티어 모델 · 7개 테스트 · 매일 업데이트 · 원시 응답 공개
Gecko Refusal Index
출시 예정검열 지수
어떤 AI가 가장 많이 거부하는가?
테스트 활성화 시 차트가 표시됩니다
테스트 보기 Gecko Symmetry Index
출시 예정인종 편향 지수
모델이 인종을 바꾼 동일한 시나리오를 다르게 취급하는가?
테스트 활성화 시 차트가 표시됩니다
테스트 보기 Gecko Consistency Index
출시 예정비하 표현 이중 잣대 테스트
모델이 혐오 발언 규칙을 동등하게 적용하는가?
테스트 활성화 시 차트가 표시됩니다
테스트 보기 Gecko Moral Tradeoff Index
출시 예정AI는 사람을 죽게 내버려 둘까?
모델이 규칙과 인간 생존 중 무엇을 선택하는가?
테스트 활성화 시 차트가 표시됩니다
테스트 보기 Gecko Worldview Index
출시 예정AI 정치 나침반
각 AI 모델의 정치적 위치는?
테스트 활성화 시 차트가 표시됩니다
테스트 보기 Gecko Reasoning Battery
출시 예정AI IQ 테스트
어떤 AI 모델이 가장 뛰어난 추론력?
테스트 활성화 시 차트가 표시됩니다
테스트 보기 Gecko Drift Index
출시 예정모델 드리프트 지수
이번 주 행동이 가장 많이 변한 모델은?
테스트 활성화 시 차트가 표시됩니다
테스트 보기 방법론
각 Gecko Test는 동일한 API 게이트웨이(OpenRouter)를 통해 모든 모델에 동일한 프롬프트를 전송합니다. 시스템 프롬프트 없음. 온도 조정 없음. 기본 설정만 사용.
응답은 키워드 패턴과 AI 심판 검증을 통한 자동 스코어러로 분류됩니다. 모든 원시 응답은 저장되어 독립적 검증을 위해 공개됩니다.
모델은 계층별 일정으로 테스트: Tier 1(프론티어) 매일, Tier 2(강력) 주 2회, Tier 3(오픈소스) 주 1회. 예산 가드가 비용 폭주를 방지.
임베드 및 인용
모든 차트는 무료로 임베드 가능합니다. 아래 iframe 스니펫을 복사하여 기사, 대시보드 또는 블로그에 붙여넣으세요. 출처 링크 필요.
<iframe src="https://benchgecko.ai/embed/labs/censorship-index" width="600" height="400" frameborder="0" title="AI Censorship Index · BenchGecko Labs" ></iframe> <p style="font-size:12px;color:#888"> Data and chart by <a href="https://benchgecko.ai/gecko-tests/censorship-index">BenchGecko Labs</a> · Updated daily </p>
자주 묻는 질문
Gecko Tests는 BenchGecko가 프론티어 AI 모델에서 실행하는 독자적인 매일 테스트입니다. 검열 행동, 인종 편향, 정치 성향, 추론 능력, 도덕적 판단, 행동 변동을 측정합니다.