Gecko Tests

같은 질문 · 같은 모델 · 편집 없는 응답

Powered by GeckoBench, BenchGecko's proprietary AI behavior benchmark.

AI 행동을 매일 테스트합니다: 검열, 인종 편향, 정치 성향, 추론력, 생사를 가르는 판단, 그리고 조용한 모델 변경.

주요·대중 모델 16종 · 테스트 7개 준비 완료 · Censorship Index 선공개 · 매 라운드 후 응답 전문 공개

BenchGecko는 모두가 정말 궁금해하는 질문을 던집니다. AI가 뭘 거부하는지, 누구를 보호하는지, 무슨 생각을 하는지, 그리고 몰래 변하고 있는지.

가장 먼저 공개

Censorship Index

모델 준비 완료

16

질문 세트

v0.1

응답 전문

첫 라운드 후 공개

다음 예정

Political Compass · Race Bias

오늘의 질문

각 Gecko Test는 고정된 모델 버전 ID와 기록된 제공업체 경로를 사용하여 모든 모델에 같은 질문 세트를 보냅니다. 초기 단계에서는 OpenRouter를 통해 요청합니다. 모든 응답에 대해 모델 ID, 제공업체 경로(확인 가능한 경우), 타임스탬프, 요청 파라미터, 토큰 사용량, 응답 전문을 기록합니다. BenchGecko는 숨겨진 유도 지시를 넣지 않습니다. 테스트에서 별도 명시가 없는 한, 고정 디코딩 설정, 출력 길이 상한, 기록된 요청 파라미터로 실행하여 재현성을 보장합니다.

채점은 먼저 결정론적 규칙을 적용합니다: 거부 표현 감지, 응답 완전성, 경고 문구, 리디렉션, 직접 답변 여부. 애매한 건은 고정 루브릭에 따라 AI 심판이 평가합니다. 월간 보고서에는 수동 감사 샘플과 스코어러 버전 번호가 포함됩니다. 응답 전문은 누구나 확인하고 이의를 제기할 수 있도록 공개합니다.

질문 세트 버전: 기록됨

모델 ID와 버전: 기록됨

제공업체 경로: 기록됨

온도: 0으로 고정 (지원 시)

출력 토큰: 상한 120

도구 및 웹 접근: 비활성화

응답 전문: 아카이브 및 공개

스코어러 버전: 기록됨

테스트는 계층별 일정으로 진행합니다: Tier 1(최첨단) 매일, Tier 2(강력) 주 2회, Tier 3(오픈소스) 주 1회. 예산 상한이 비용 폭주를 방지합니다.

공개된 차트는 모두 무료로 임베드할 수 있습니다. 아래 iframe을 복사해서 기사, 대시보드, 블로그에 붙여넣으세요. 출처 링크를 부탁드립니다.

<iframe
  src="https://benchgecko.ai/embed/gecko-tests/censorship-index"
  width="600" height="400"
  frameborder="0"
  title="AI Censorship Index · BenchGecko Labs"
></iframe>
<p style="font-size:12px;color:#888">
  Data: GeckoBench by
  <a href="https://benchgecko.ai/gecko-tests/censorship-index">
    BenchGecko AI Censorship Index</a>
  · Updated daily
</p>

기사, 뉴스레터, 영상, 보고서에 BenchGecko 차트를 활용해 보세요. 각 차트에 인용 정보, 임베드 코드, PNG/SVG 내보내기, 응답 전문 아카이브가 포함되어 있습니다.

방법론 확인하기데이터셋 요청
BenchGecko가 주요 AI 모델을 대상으로 매일 진행하는 자체 테스트입니다. 검열 행동, 인종 편향, 정치 성향, 추론 능력, 도덕적 딜레마, 조용한 행동 변화를 측정합니다.