Beta
Classificação/DeepSeek-R1 (May 2025)
DeepSeek

DeepSeek-R1 (May 2025)

por DeepSeek · Lançado em 2024-01-01

48.5
pontuação média
N/A
Preço de entrada
N/A
Preço de saída
N/A
Janela de contexto
text
Tipo

Tested on 11 benchmarks with 48.5% average. Top scores: MATH level 5 (96.6%), Fiction.LiveBench (75.0%), Aider polyglot (71.4%).

Pontuações de benchmark

BenchmarkCategoriaPontuaçãoBar
MATH level 5math96.6
Fiction.LiveBenchknowledge75.0
Aider polyglotcoding71.4
GPQA diamondknowledge68.4
OTIS Mock AIME 2024-2025math66.4
WeirdMLcoding41.6
DeepResearch Benchknowledge35.1
SimpleBenchreasoning29.0
SimpleQA Verifiedknowledge27.4
ARC-AGIreasoning21.2
ARC-AGI-2reasoning1.1

Modelos similares