매일 하는 AI 테스트 · 행동 데이터 · 여기저기 인용되는 차트
Powered by GeckoBench · BenchGecko's proprietary AI behavior benchmark.
매일 모든 주요 모델에 같은 질문을 던집니다. 응답 원문 공개. 차트 공개. 데이터 재사용 가능. 아무도 만들지 않는 AI 투명성 레이어를 만들고 있습니다.
GeckoBench
The benchmark engine behind Gecko Tests. 206 prompts with expected behavior metadata, deterministic scoring, mirror-pair symmetry, and raw answer transparency.
206
Prompts
16
Models
18
Test families
BenchGecko Labs가 뭔가요?
기존 벤치마크는 모델이 "뭘 할 수 있는지"를 측정합니다. Labs는 "어떻게 행동하는지"를 측정합니다. 검열 패턴, 편향의 비대칭, 정치적 성향, 도덕적 딜레마, 조용히 일어나는 행동 변화 등 일반 벤치마크가 놓치는 것들을 추적합니다.
매일 모든 모델에 같은 질문을 보냅니다. 결과는 채점하고, 차트로 만들고, 응답 전문과 함께 공개합니다. 블랙박스 없음. 편집 의견 없음. 데이터만 있습니다.
모든 차트는 코드 한 줄로 임베드 가능합니다. 모든 데이터셋은 APA, BibTeX 형식으로 인용할 수 있습니다. 기자, 연구자, AI의 실체를 알고 싶은 모든 분을 위해 만들었습니다.
주요 테스트
검열 지수
어떤 AI가 답변을 가장 많이 거부할까요?
테스트 보기AI 정치 나침반
AI에도 정치적 편향이 있을까요? 측정해봅니다.
테스트 보기인종 편향 지수
같은 시나리오에서 인종만 바꾸면 모델 응답이 달라질까요?
테스트 보기AI가 당신을 죽게 내버려 둘까요?
생사가 달린 상황에서 모델은 규칙을 따를까요, 사람을 살릴까요?
테스트 보기AI IQ 테스트
논리 함정 앞에서 가장 날카롭게 추론하는 모델은?
테스트 보기실생활 AI 테스트
모델은 실제 상황에서 유용한 조언을 제공합니까?
테스트 보기