Hermes 4 - Llama-3.1 70B (Reasoning) vs Qwen3 4B 2507 (Reasoning)

Nous Research vs Alibaba — side-by-side benchmark comparison

	Hermes 4 - Llama-3.1 70B (Reasoning)	Qwen3 4B 2507 (Reasoning)
Intelligence Index	16.0	18.2
Coding Index	14.4	9.5
Math Index	68.7	82.7
Output speed (tok/s)	92.8	0.0
Blended price ($/1M)	$0.20	$0.00
Time to first token (s)	0.64s	0.00s
aime	—	—
aime 25	68.7%	82.7%
artificial analysis coding index	14.40	9.50
artificial analysis intelligence index	16.00	18.20
artificial analysis math index	68.70	82.70
gpqa	69.9%	66.7%
hle	7.9%	5.9%
ifbench	31.3%	49.8%
lcr	6.7%	37.7%
livecodebench	65.3%	64.1%
math 500	—	—
mmlu pro	81.1%	74.3%
scicode	34.1%	25.6%
tau2	22.5%	25.4%
terminalbench hard	4.5%	1.5%

Benchmark data from Artificial Analysis.