EQ-Bench

eq_bench

Emotional Intelligence

EQ-Bench (Emotional Intelligence Benchmark) is a 60-question English benchmark that asks models to predict, on a 0-10 intensity scale, the emotional states experienced by characters in short dialogue scenarios. The model output is compared against author-defined reference intensities and scored by a normalized error metric. The original paper reports a Pearson correlation of approximately 0.97 between EQ-Bench and MMLU scores, and the benchmark has been used as a lightweight, fast-to-run signal of emotional reasoning ability in conversational language models.

Source paperLatest run: 2026-05-25

Benchmark results

Switch between the canonical ranking, release-date performance view, and score-size tradeoff.

#	Model	eqbench	Actions
1	google/Gemma-4-31B-IT-NVFP4	86.2±1.2	View run →
2	google/gemma-4-31B-it	85.8±1.2	View run →
3	Qwen/Qwen3.6-35B-A3B	84.6±1.3	View run →
4	google/gemma-4-26B-A4B-it	84.2±1.2	View run →
5	Qwen/Qwen3.6-27B	82.0±1.6	View run →
6	Qwen/Qwen3.5-122B-A10B-NVFP4	80.8±1.8	View run →
7	google/gemma-3-27b-it	80.7±1.4	View run →
8	Qwen/Qwen3-32B	80.3±1.9	View run →
9	Qwen/Qwen3-14B	79.3±1.8	View run →
10	Qwen/Qwen3.5-35B-A3B	79.0±1.9	View run →
11	openai/gpt-oss-120b	78.6±1.6	View run →
12	nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4	78.3±1.8	View run →
13	zai-org/GLM-4.5-Air-FP8	77.9±1.9	View run →
14	microsoft/phi-4	77.6±1.6	View run →
15	Qwen/Qwen3-Next-80B-A3B-Instruct	76.8±1.7	View run →
16	Qwen/Qwen3-235B-A22B-Thinking-AWQ-2507	76.3±2.2	View run →
17	Qwen/Qwen3-8B	75.8±1.9	View run →
18	Qwen/Qwen3-Coder-30B-A3B-Instruct-FP8	75.6±1.8	View run →
19	Qwen/Qwen3-4B	74.1±1.9	View run →
20	openai/gpt-oss-20b	73.9±1.9	View run →
21	google/gemma-3-12b-it	72.7±1.9	View run →
22	microsoft/phi-4-mini-instruct	67.5±2.5	View run →
23	Qwen/Qwen3-4B-AWQ	65.0±2.7	View run →
24	MiniMax/MiniMax-M2.1-AWQ	52.5±3.1	View run →
25	microsoft/phi-4-mini-reasoning	48.7±3.0	View run →
26	microsoft/phi-4-reasoning-plus	3.6±1.4	View run →
27	zai-org/GLM-4.5V-FP8	1.1±0.8	View run →
28	MiniMax/MiniMax-M2-AWQ	0.5±0.5	View run →

28 models

1.google/Gemma-4-31B-IT-NVFP4

eqbench86.2±1.2

Model page →View run →

2.google/gemma-4-31B-it

eqbench85.8±1.2

Model page →View run →

3.Qwen/Qwen3.6-35B-A3B

eqbench84.6±1.3

Model page →View run →

4.google/gemma-4-26B-A4B-it

eqbench84.2±1.2

Model page →View run →

5.Qwen/Qwen3.6-27B

eqbench82.0±1.6

Model page →View run →

6.Qwen/Qwen3.5-122B-A10B-NVFP4

eqbench80.8±1.8

Model page →View run →

7.google/gemma-3-27b-it

eqbench80.7±1.4

Model page →View run →

8.Qwen/Qwen3-32B

eqbench80.3±1.9

Model page →View run →

9.Qwen/Qwen3-14B

eqbench79.3±1.8

Model page →View run →

10.Qwen/Qwen3.5-35B-A3B

eqbench79.0±1.9

Model page →View run →

11.openai/gpt-oss-120b

eqbench78.6±1.6

Model page →View run →

12.nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

eqbench78.3±1.8

Model page →View run →

13.zai-org/GLM-4.5-Air-FP8

eqbench77.9±1.9

Model page →View run →

14.microsoft/phi-4

eqbench77.6±1.6

Model page →View run →

15.Qwen/Qwen3-Next-80B-A3B-Instruct

eqbench76.8±1.7

Model page →View run →

16.Qwen/Qwen3-235B-A22B-Thinking-AWQ-2507

eqbench76.3±2.2

Model page →View run →

17.Qwen/Qwen3-8B

eqbench75.8±1.9

Model page →View run →

18.Qwen/Qwen3-Coder-30B-A3B-Instruct-FP8

eqbench75.6±1.8

Model page →View run →

19.Qwen/Qwen3-4B

eqbench74.1±1.9

Model page →View run →

20.openai/gpt-oss-20b

eqbench73.9±1.9

Model page →View run →

21.google/gemma-3-12b-it

eqbench72.7±1.9

Model page →View run →

22.microsoft/phi-4-mini-instruct

eqbench67.5±2.5

Model page →View run →

23.Qwen/Qwen3-4B-AWQ

eqbench65.0±2.7

Model page →View run →

24.MiniMax/MiniMax-M2.1-AWQ

eqbench52.5±3.1

Model page →View run →

25.microsoft/phi-4-mini-reasoning

eqbench48.7±3.0

Model page →View run →

26.microsoft/phi-4-reasoning-plus

eqbench3.6±1.4

Model page →View run →

27.zai-org/GLM-4.5V-FP8

eqbench1.1±0.8

Model page →View run →

28.MiniMax/MiniMax-M2-AWQ

eqbench0.5±0.5

Model page →View run →

Caveats

The most fundamental concern is sample size. With only 60 questions, run-to-run variance is high, scores are sensitive to sampling temperature and minor prompt-template changes, and small deltas between models on a single run should be considered noise rather than signal. There is also no human-cohort baseline: reference answers are author-defined with no inter-rater reliability check, so "correct" emotional intensity has no external anchor and the ground-truth itself reflects one annotator's intuitions about emotional plausibility. Construct validity is the deeper open question. The reported r≈0.97 correlation with MMLU suggests EQ-Bench may be measuring general language-model capability rather than emotional intelligence specifically — if a benchmark moves in lockstep with broad-knowledge MCQ scores, its claim to test a distinct capability is weak. The dialogues are also entirely synthetic and were generated by GPT-4, which can impose stylistic homogeneity and GPT-4-era biases on what counts as emotionally plausible behavior. The benchmark is English- only, and emotional norms are culturally specific, so EQ-Bench scores do not generalize to evaluating emotional reasoning across cultures or in non-English deployment contexts.

How to cite

Citation

FrozeBench. "EQ-Bench." https://frozebench.com/benchmarks/eq-bench. Retrieved 2026-06-04.

BibTeX

@misc{frozebench_eq_bench,
  title = {EQ-Bench},
  howpublished = {\url{https://frozebench.com/benchmarks/eq-bench}},
  year = {2026},
  note = {FrozeBench. Retrieved 2026-06-04.}
}

URL

https://frozebench.com/benchmarks/eq-bench