Home/Comparar/Llama 3.1 405B vs Qwen2.5 72B Instruct

Llama 3.1 405B vs Qwen2.5 72B Instruct

Lado a lado. Cada métrica. Cada benchmark.

Meta

38.0

puntuación promedio

9/17

benchmarks

Alibaba Qwen

53.2

puntuación promedio

8/17

benchmarks

Puntuaciones de benchmark

17 benchmarks · Llama 3.1 405B: 9, Qwen2.5 72B Instruct: 8

Benchmark	Categoría	Llama 3.1 405B	Qwen2.5 72B Instruct
ARC AI2	knowledge	93.7	92.7
BBH	reasoning	77.2	73.1
BBH (HuggingFace)	general	7.8	61.9
GPQA	knowledge	5.9	16.7
GPQA diamond	knowledge	34.5	32.2
HellaSwag	knowledge	85.6	79.7
IFEval	language	18.1	86.4
MATH level 5	math	49.8	63.2
MATH Level 5	math	0.0	59.8
MMLU	knowledge	79.3	80.4
MMLU-PRO	knowledge	25.7	51.4
MUSR	reasoning	2.2	11.7
OTIS Mock AIME 2024-2025	math	9.6	8.0
PIQA	knowledge	71.8	65.2
The Agent Company	agentic	7.4	5.7
TriviaQA	knowledge	82.7	71.9
Winogrande	knowledge	78.4	64.6