Hermes 4 - Llama-3.1 405B (Non-reasoning) vs Qwen3.5 27B (Non-reasoning)

Nous Research vs Alibaba — side-by-side benchmark comparison

	Hermes 4 - Llama-3.1 405B (Non-reasoning)	Qwen3.5 27B (Non-reasoning)
Intelligence Index	17.6	37.2
Coding Index	18.1	33.4
Math Index	15.3	—
Output speed (tok/s)	40.8	95.3
Blended price ($/1M)	$1.50	$0.88
Time to first token (s)	0.73s	1.40s
aime	—	—
aime 25	15.3%	—
artificial analysis coding index	18.10	33.40
artificial analysis intelligence index	17.60	37.20
artificial analysis math index	15.30	—
gpqa	53.6%	84.2%
hle	4.2%	13.2%
ifbench	34.8%	46.9%
lcr	20.0%	55.7%
livecodebench	54.6%	—
math 500	—	—
mmlu pro	72.9%	—
scicode	34.6%	36.7%
tau2	26.6%	87.1%
terminalbench hard	9.8%	31.8%

Benchmark data from Artificial Analysis.