Home/Comparer/GLM 4.7 vs Kimi K2 Thinking

GLM 4.7 vs Kimi K2 Thinking

Côte à côte. Chaque métrique. Chaque benchmark.

z-ai

50.5

score moyen

9/23

benchmarks

moonshotai

53.3

score moyen

13/23

benchmarks

Scores de benchmark

23 benchmarks · GLM 4.7: 9, Kimi K2 Thinking: 13

Benchmark	Catégorie	GLM 4.7	Kimi K2 Thinking
APEX-Agents	agentic	3.1	4.0
Chess Puzzles	knowledge	6.0	20.0
FrontierMath-2025-02-28-Private	math	2.4	21.4
FrontierMath-Tier-4-2025-07-01-Private	math	0.1	0.1
GPQA diamond	knowledge	77.8	79.0
LiveBench — Agentic Coding	coding	41.7	38.3
LiveBench — Coding	coding	73.1	67.4
LiveBench — Data Analysis	reasoning	55.2	52.3
LiveBench — If	language	35.7	62.0
LiveBench — Language	language	65.2	66.5
LiveBench — Mathematics	math	76.0	81.1
LiveBench — Overall	knowledge	58.1	61.6
LiveBench — Reasoning	reasoning	59.7	63.5
OpenCompass — AIME2025	math	95.4	94.1
OpenCompass — GPQA-Diamond	knowledge	86.9	82.7
OpenCompass — HLE	knowledge	25.4	21.3
OpenCompass — IFEval	language	90.2	92.4
OpenCompass — LiveCodeBenchV6	coding	83.8	77.1
OpenCompass — MMLU-Pro	knowledge	84.0	84.3
OTIS Mock AIME 2024-2025	math	83.3	83.0
PostTrainBench	knowledge	7.5	7.3
SimpleQA Verified	knowledge	31.5	31.6
Terminal Bench	coding	33.4	35.7