Hermes 4 - Llama-3.1 70B (Reasoning) vs Qwen3 235B A22B 2507 (Reasoning)

Nous Research vs Alibaba — side-by-side benchmark comparison

	Hermes 4 - Llama-3.1 70B (Reasoning)	Qwen3 235B A22B 2507 (Reasoning)
Intelligence Index	16.0	29.5
Coding Index	14.4	23.2
Math Index	68.7	91.0
Output speed (tok/s)	92.8	62.5
Blended price ($/1M)	$0.20	$0.84
Time to first token (s)	0.64s	1.21s
aime	—	94.0%
aime 25	68.7%	91.0%
artificial analysis coding index	14.40	23.20
artificial analysis intelligence index	16.00	29.50
artificial analysis math index	68.70	91.00
gpqa	69.9%	79.0%
hle	7.9%	15.0%
ifbench	31.3%	51.2%
lcr	6.7%	67.0%
livecodebench	65.3%	78.8%
math 500	—	98.4%
mmlu pro	81.1%	84.3%
scicode	34.1%	42.4%
tau2	22.5%	53.2%
terminalbench hard	4.5%	13.6%

Benchmark data from Artificial Analysis.