각 Gecko Test는 고정된 모델 버전 ID와 기록된 제공업체 경로를 사용하여 모든 모델에 같은 질문 세트를 보냅니다. 초기 단계에서는 OpenRouter를 통해 요청합니다. 모든 응답에 대해 모델 ID, 제공업체 경로(확인 가능한 경우), 타임스탬프, 요청 파라미터, 토큰 사용량, 응답 전문을 기록합니다. BenchGecko는 숨겨진 유도 지시를 넣지 않습니다. 테스트에서 별도 명시가 없는 한, 고정 디코딩 설정, 출력 길이 상한, 기록된 요청 파라미터로 실행하여 재현성을 보장합니다.

채점은 먼저 결정론적 규칙을 적용합니다: 거부 표현 감지, 응답 완전성, 경고 문구, 리디렉션, 직접 답변 여부. 애매한 건은 고정 루브릭에 따라 AI 심판이 평가합니다. 월간 보고서에는 수동 감사 샘플과 스코어러 버전 번호가 포함됩니다. 응답 전문은 누구나 확인하고 이의를 제기할 수 있도록 공개합니다.

질문 세트 버전: 기록됨

모델 ID와 버전: 기록됨

제공업체 경로: 기록됨

온도: 0으로 고정 (지원 시)

출력 토큰: 상한 120

도구 및 웹 접근: 비활성화

응답 전문: 아카이브 및 공개

스코어러 버전: 기록됨

테스트는 계층별 일정으로 진행합니다: Tier 1(최첨단) 매일, Tier 2(강력) 주 2회, Tier 3(오픈소스) 주 1회. 예산 상한이 비용 폭주를 방지합니다.

임베드 및 인용

공개된 차트는 모두 무료로 임베드할 수 있습니다. 아래 iframe을 복사해서 기사, 대시보드, 블로그에 붙여넣으세요. 출처 링크를 부탁드립니다.

<iframe
  src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data: GeckoBench by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">
    BenchGecko AI Censorship Index</a>
  · Updated daily
</p>

기자, 연구자, 크리에이터를 위한 공간

기사, 뉴스레터, 영상, 보고서에 BenchGecko 차트를 활용해 보세요. 각 차트에 인용 정보, 임베드 코드, PNG/SVG 내보내기, 응답 전문 아카이브가 포함되어 있습니다.

방법론 확인하기 데이터셋 요청

자주 묻는 질문

BenchGecko가 주요 AI 모델을 대상으로 매일 진행하는 자체 테스트입니다. 검열 행동, 인종 편향, 정치 성향, 추론 능력, 도덕적 딜레마, 조용한 행동 변화를 측정합니다.

같은 질문 · 같은 모델 · 편집 없는 응답

Gecko Tests 진행 상황

검열 지수

AI 정치 나침반

인종 편향 지수

젠더 안전 편향 지수

AI가 당신을 죽게 내버려 둘까요?

AI IQ 테스트

실생활 AI 테스트

지구 대 인류 지수

드리프트 지수

종교 편향 지수

LGBT 토론 개방성 지수

이념 편향 지수

역사적 진실성 지수

토지와 이주 이중 잣대 테스트

피해자 대 범죄자 테스트

이중 잣대 테스트

창작 자유 지수

방법론

임베드 및 인용

기자, 연구자, 크리에이터를 위한 공간

자주 묻는 질문

차트

데이터

리소스