BenchGecko Labs

매일 하는 AI 테스트 · 행동 데이터 · 여기저기 인용되는 차트

매일 모든 주요 모델에 같은 질문을 던집니다. 응답 원문 공개. 차트 공개. 데이터 재사용 가능. 아무도 만들지 않는 AI 투명성 레이어를 만들고 있습니다.

GeckoBench

The benchmark engine behind Gecko Tests. 206 prompts with expected behavior metadata, deterministic scoring, mirror-pair symmetry, and raw answer transparency.

206

Prompts

Models

Test families

BenchGecko Labs가 뭔가요?

기존 벤치마크는 모델이 "뭘 할 수 있는지"를 측정합니다. Labs는 "어떻게 행동하는지"를 측정합니다. 검열 패턴, 편향의 비대칭, 정치적 성향, 도덕적 딜레마, 조용히 일어나는 행동 변화 등 일반 벤치마크가 놓치는 것들을 추적합니다.

매일 모든 모델에 같은 질문을 보냅니다. 결과는 채점하고, 차트로 만들고, 응답 전문과 함께 공개합니다. 블랙박스 없음. 편집 의견 없음. 데이터만 있습니다.

모든 차트는 코드 한 줄로 임베드 가능합니다. 모든 데이터셋은 APA, BibTeX 형식으로 인용할 수 있습니다. 기자, 연구자, AI의 실체를 알고 싶은 모든 분을 위해 만들었습니다.

주요 테스트

Gecko Refusal Index

Beta

검열 지수

어떤 AI가 답변을 가장 많이 거부할까요?

테스트 보기

Gecko Worldview Index

Preview

AI 정치 나침반

AI에도 정치적 편향이 있을까요? 측정해봅니다.

테스트 보기

Gecko Symmetry Index

Preview

인종 편향 지수

같은 시나리오에서 인종만 바꾸면 모델 응답이 달라질까요?

테스트 보기

Gecko Moral Tradeoff Index

Preview

AI가 당신을 죽게 내버려 둘까요?

생사가 달린 상황에서 모델은 규칙을 따를까요, 사람을 살릴까요?

테스트 보기

Gecko Reasoning Battery

Preview

AI IQ 테스트

논리 함정 앞에서 가장 날카롭게 추론하는 모델은?

테스트 보기

Gecko Situation Index

Preview

실생활 AI 테스트

모델은 실제 상황에서 유용한 조언을 제공합니까?

테스트 보기

모든 Gecko Tests

자주 묻는 질문

BenchGecko Labs는 AI 모델을 대상으로 자체 일일 테스트를 진행합니다. 검열, 편향, 정치적 성향, 추론 능력, 도덕적 판단, 행동 변화를 측정합니다. 같은 질문, 같은 모델, 매일.

매일 하는 AI 테스트 · 행동 데이터 · 여기저기 인용되는 차트

BenchGecko Labs가 뭔가요?

주요 테스트

검열 지수

AI 정치 나침반

인종 편향 지수

AI가 당신을 죽게 내버려 둘까요?

AI IQ 테스트

실생활 AI 테스트

자주 묻는 질문

Gecko Tests

데이터

리소스