Hermes 4 - Llama-3.1 70B (Non-reasoning) vs Qwen3 32B (Non-reasoning)

Nous Research vs Alibaba — side-by-side benchmark comparison

	Hermes 4 - Llama-3.1 70B (Non-reasoning)	Qwen3 32B (Non-reasoning)
Intelligence Index	12.6	14.5
Coding Index	9.2	—
Math Index	11.3	19.7
Output speed (tok/s)	94.3	94.2
Blended price ($/1M)	$0.20	$0.26
Time to first token (s)	0.61s	1.12s
aime	—	30.3%
aime 25	11.3%	19.7%
artificial analysis coding index	9.20	—
artificial analysis intelligence index	12.60	14.50
artificial analysis math index	11.30	19.70
gpqa	49.1%	53.5%
hle	3.6%	4.3%
ifbench	29.0%	31.5%
lcr	2.0%	0.0%
livecodebench	26.9%	28.8%
math 500	—	86.9%
mmlu pro	66.4%	72.7%
scicode	27.7%	28.0%
tau2	21.6%	—
terminalbench hard	0.0%	—

Benchmark data from Artificial Analysis.