Skills/Knowledge & QA

Knowledge & QA

Factual knowledge, question answering, and academic reasoning — tested across science, history, medicine, law, and more.

170

Models Ranked

91.7

Top Score

49.9

Average Score

Benchmarks

Benchmarks in This Skill

ARC AI2 HellaSwag LAMBADA MMLU GPQA diamond Winogrande Lech Mazur Writing Fiction.LiveBench SimpleQA Verified Chess Puzzles HLE TriviaQA ScienceQA PIQA OpenBookQA Balrog GeoBench ANLI DeepResearch Bench VPCT

Rankings

#	Model	Avg Score	Tests
1	o3 ProOpenAI	91.7	2/20
2	Grok 4 FastxAI	87.8	2/20
3	DeepSeek V3.2 ExpDeepSeek	83.3	1/20
4	DeepSeek-V2 (MoE-236B, May 2024)DeepSeek	77.3	6/20
5	M Kimi K2 0905moonshotai	77.0	2/20
6	DeepSeek V3DeepSeek	75.2	7/20
7	Claude InstantAnthropic	75.1	3/20
8	Gemini 3.1 Pro PreviewGoogle DeepMind	74.8	3/20
9	M Kimi K2 0711moonshotai	74.0	2/20
10	Gemini 2.0 FlashGoogle DeepMind	72.2	2/20
11	U Stable Beluga 2unknown	71.3	5/20
12	Qwen3 235B A22BAlibaba Qwen	70.5	3/20
13	Llama 3.1-405BMeta	69.8	8/20
14	DeepSeek V3.1DeepSeek	69.0	2/20
15	T Falcon-180BTII	68.5	7/20
16	U Yi-34Bunknown	68.4	1/20
17	GPT-5.4OpenAI	67.9	2/20
18	Qwen2.5 Coder 32B InstructAlibaba Qwen	67.9	4/20
19	phi-3-small 7.4BMicrosoft	66.7	7/20
20	Gemini 3 ProGoogle	66.5	6/20
21	Qwen-14BAlibaba	66.3	4/20
22	LLaMA-65BMeta	65.0	8/20
23	Gemini 3 Flash PreviewGoogle DeepMind	63.0	6/20
24	Qwen2.5 72B InstructAlibaba Qwen	62.8	9/20
25	LLaMA-33BMeta	62.6	8/20
26	DeepSeek-R1DeepSeek	62.4	4/20
27	Claude 3 OpusAnthropic	62.0	3/20
28	phi-3-medium 14BMicrosoft	61.7	8/20
29	o1OpenAI	61.6	5/20
30	T Falcon-40BTII	61.4	8/20
31	Llama 2-70BMeta	61.4	9/20
32	Mixtral 8x7B InstructMistral AI	61.3	9/20
33	Gemma 7BGoogle	61.2	8/20
34	phi-3-mini 3.8BMicrosoft	60.9	7/20
35	Qwen2.5-MaxAlibaba	60.4	3/20
36	Claude 3.5 SonnetAnthropic	60.4	2/20
37	Mistral 7B v0.1Mistral	60.2	8/20
38	T Falcon 2 11BTII	59.4	3/20
39	Qwen3 235B A22B Thinking 2507Alibaba Qwen	59.1	5/20
40	GPT-5 ChatOpenAI	58.9	10/20
41	GPT-5OpenAI	58.9	10/20
42	Grok 4xAI	58.8	8/20
43	o3OpenAI	58.3	8/20
44	Mistral Large 2407Mistral AI	58.1	3/20
45	Grok 3xAI	58.0	4/20
46	Grok 3 BetaxAI	58.0	4/20
47	Qwen3 MaxAlibaba Qwen	57.8	5/20
48	Grok 3 MinixAI	57.4	4/20
49	Grok 3 Mini BetaxAI	57.4	4/20
50	o1-miniOpenAI	57.4	2/20

Other Skills