Home/Comparar/Qwen2 VL 7B Instruct vs DeepSeek R1 Distill Llama 8B

Qwen2 VL 7B Instruct vs DeepSeek R1 Distill Llama 8B

Lado a lado. Cada métrica. Cada benchmark.

Alibaba

47.3

puntuación promedio

10/11

benchmarks

DeepSeek

33.6

puntuación promedio

1/11

benchmarks

Puntuaciones de benchmark

11 benchmarks · Qwen2 VL 7B Instruct: 10, DeepSeek R1 Distill Llama 8B: 1

Benchmark	Categoría	Qwen2 VL 7B Instruct	DeepSeek R1 Distill Llama 8B
BBH (HuggingFace)	general	35.9	5.3
GPQA	knowledge	9.3	0.7
IFEval	language	46.0	37.8
JCommonsenseQA	language	87.8	62.4
JMMLU	language	56.3	37.8
JNLI	language	74.4	69.4
JSQuAD	language	89.9	80.2
LLM-JP — Overall	language	53.0	41.4
MATH Level 5	math	19.9	22.0
MMLU-PRO	knowledge	34.4	12.1
MUSR	reasoning	13.6	0.5