LIVE268개 제공업체의 976개 AI 모델 추적 중.

BenchGecko베타

모델976·제공업체268·벤치마크128·기업71·에이전트165·1위Qwen3 VL 235B A22B Instruct · 1415.8%·업데이트방금·데이터 포인트2,902·MCP 서버4,923

리더보드/Llama 3.1 405B

Llama 3.1 405B

오픈소스

제공 Meta · 출시일 2024-07-16

38.0

평균 점수

N/A

입력 가격

N/A

출력 가격

N/A

컨텍스트 윈도우

text-generation

유형

Tested on 21 benchmarks with 38.0% average. Top scores: ARC AI2 (93.7%), HellaSwag (85.6%), TriviaQA (82.7%).

벤치마크 점수

벤치마크	카테고리	점수	Bar
ARC AI2	knowledge	93.7
HellaSwag	knowledge	85.6
TriviaQA	knowledge	82.7
MMLU	knowledge	79.3
Winogrande	knowledge	78.4
BBH	reasoning	77.2
PIQA	knowledge	71.8
MATH level 5	math	49.8
GPQA diamond	knowledge	34.5
OpenBookQA	knowledge	32.3
MMLU-PRO	knowledge	25.7
WeirdML	coding	21.4
IFEval	language	18.1
OTIS Mock AIME 2024-2025	math	9.6
BBH (HuggingFace)	general	7.8
SimpleBench	reasoning	7.6
Cybench	coding	7.5
The Agent Company	agentic	7.4
GPQA	knowledge	5.9
MUSR	reasoning	2.2
MATH Level 5	math	0.0

유사 모델

Llama 3.1 70B Instruct

Gemini 2.0 Flash Thinking (Jan 2025)

Google DeepMind

GPT-4o (2024-11-20)

Command R+ (08-2024)

Meta Llama 3.1 타임라인

Llama 3.1 405BJul 2024

N/AN/Actx21 benchmarks

Llama 3.1 70B InstructJul 2024

$0.40/M in131Kctx16 benchmarks

Llama 3.1 8B InstructJul 2024

$0.02/M in(-0.38)16Kctx(-115K)16 benchmarks