BenchGecko Labs

매일 하는 AI 테스트 · 행동 데이터 · 여기저기 인용되는 차트

Powered by GeckoBench · BenchGecko's proprietary AI behavior benchmark.

매일 모든 주요 모델에 같은 질문을 던집니다. 응답 원문 공개. 차트 공개. 데이터 재사용 가능. 아무도 만들지 않는 AI 투명성 레이어를 만들고 있습니다.

The benchmark engine behind Gecko Tests. 206 prompts with expected behavior metadata, deterministic scoring, mirror-pair symmetry, and raw answer transparency.

Prompts

Models

Test families

기존 벤치마크는 모델이 "뭘 할 수 있는지"를 측정합니다. Labs는 "어떻게 행동하는지"를 측정합니다. 검열 패턴, 편향의 비대칭, 정치적 성향, 도덕적 딜레마, 조용히 일어나는 행동 변화 등 일반 벤치마크가 놓치는 것들을 추적합니다.

매일 모든 모델에 같은 질문을 보냅니다. 결과는 채점하고, 차트로 만들고, 응답 전문과 함께 공개합니다. 블랙박스 없음. 편집 의견 없음. 데이터만 있습니다.

모든 차트는 코드 한 줄로 임베드 가능합니다. 모든 데이터셋은 APA, BibTeX 형식으로 인용할 수 있습니다. 기자, 연구자, AI의 실체를 알고 싶은 모든 분을 위해 만들었습니다.

BenchGecko Labs는 AI 모델을 대상으로 자체 일일 테스트를 진행합니다. 검열, 편향, 정치적 성향, 추론 능력, 도덕적 판단, 행동 변화를 측정합니다. 같은 질문, 같은 모델, 매일.