ベータ
ベンチマーク · Reasoning確定的

ANLI

ANLI (Adversarial NLI) · adversarially constructed natural language inference dataset where each round targets weaknesses found in previous model generations.

更新日 2024-04-18
テスト済みモデル数
9
トップスコア
37.1
GPT-3.5 Turbo (older v0613)
中央値
32.8
分 13.8
トップ5スプレッド
σ 1.8
確定的

Best score over time · one chart, every benchmark

ANLI0 MODELS · FRONTIER RUNNING MAX0255075100SCORE ↑Apr 24Oct 24Apr 25Oct 25Apr 26RELEASE DATE →benchgecko.ai/benchmark/anli · frontier
Only 0 models have been tested on ANLI · not enough history to compute a frontier yet.
Pink dots = frontier records · 0 totalClick to open model page
詳細
カテゴリ
Reasoning
最高スコア
100
モデル
9
更新日
2024-04-18

同カテゴリ · 関連する評価