베타
벤치마크 · Reasoning안정

ANLI

ANLI (Adversarial NLI) · adversarially constructed natural language inference dataset where each round targets weaknesses found in previous model generations.

업데이트 2024-04-18
테스트된 모델 수
9
최고 점수
37.1
GPT-3.5 Turbo (older v0613)
중간값
32.8
분 13.8
상위 5개 분포
σ 1.8
안정

Best score over time · one chart, every benchmark

ANLI0 MODELS · FRONTIER RUNNING MAX0255075100SCORE ↑Apr 24Oct 24Apr 25Oct 25Apr 26RELEASE DATE →benchgecko.ai/benchmark/anli · frontier
Only 0 models have been tested on ANLI · not enough history to compute a frontier yet.
Pink dots = frontier records · 0 totalClick to open model page
상세 정보
카테고리
Reasoning
최대 점수
100
모델
9
업데이트
2024-04-18

같은 카테고리 · 관련 평가