Hermes 4 - Llama-3.1 405B (Reasoning) vs GLM-4.6V (Non-reasoning)

Nous Research vs Z AI — side-by-side benchmark comparison

	Hermes 4 - Llama-3.1 405B (Reasoning)	GLM-4.6V (Non-reasoning)
Intelligence Index	18.6	17.1
Coding Index	16.0	11.1
Math Index	69.7	26.3
Output speed (tok/s)	38.6	38.5
Blended price ($/1M)	$1.50	$0.45
Time to first token (s)	0.79s	1.39s
aime	—	—
aime 25	69.7%	26.3%
artificial analysis coding index	16.00	11.10
artificial analysis intelligence index	18.60	17.10
artificial analysis math index	69.70	26.30
gpqa	72.7%	56.6%
hle	10.3%	3.7%
ifbench	32.7%	27.9%
lcr	20.7%	12.3%
livecodebench	68.6%	41.1%
math 500	—	—
mmlu pro	82.9%	75.2%
scicode	25.2%	27.2%
tau2	22.2%	30.7%
terminalbench hard	11.4%	3.0%

Benchmark data from Artificial Analysis.