BenchGecko Labs
매일 AI 테스트 · 행동 데이터 · 인용되는 차트
매일 모든 프론티어 모델에 동일한 프롬프트를 전송합니다. 원시 응답. 공개 차트. 임베드 가능한 데이터. 아무도 구축하지 않는 AI 행동 레이어.
오늘의 시그널
Gecko Tests가 활성화되면 라이브 시그널이 여기에 표시됩니다. 첫 번째 테스트: Censorship Index.
BenchGecko Labs란?
전통적인 벤치마크는 모델의 성능을 측정합니다. Labs는 행동을 측정합니다. 검열 패턴, 편향 비대칭, 정치적 성향, 도덕적 추론, 행동 변동을 추적합니다. 표준 벤치마크가 완전히 놓치는 것들입니다.
각 테스트는 매일 모든 모델에 동일한 프롬프트를 전송합니다. 결과는 점수화, 차트화되어 모든 원시 응답과 함께 공개됩니다. 블랙박스 없음. 편집 편향 없음. 오직 데이터.
모든 차트는 한 줄의 코드로 임베드 가능. 모든 데이터셋은 APA 및 BibTeX 형식으로 인용 가능. 언론인, 연구자, AI의 실제 행동을 추적하는 모든 분을 위해.
주요 테스트
자주 묻는 질문
BenchGecko Labs는 AI 모델의 검열, 편향, 정치적 성향, 추론 능력, 도덕적 판단, 행동 변동을 측정하는 독자적인 매일 테스트를 실행합니다. 동일한 프롬프트, 동일한 모델, 매일.