GPT-5.4 nano (medium) vs Hermes 4 - Llama-3.1 405B (Non-reasoning)

OpenAI vs Nous Research — side-by-side benchmark comparison

	GPT-5.4 nano (medium)	Hermes 4 - Llama-3.1 405B (Non-reasoning)
Intelligence Index	38.1	17.6
Coding Index	35.0	18.1
Math Index	—	15.3
Output speed (tok/s)	152.6	40.8
Blended price ($/1M)	$0.46	$1.50
Time to first token (s)	2.09s	0.73s
aime	—	—
aime 25	—	15.3%
artificial analysis coding index	35.00	18.10
artificial analysis intelligence index	38.10	17.60
artificial analysis math index	—	15.30
gpqa	76.1%	53.6%
hle	14.7%	4.2%
ifbench	64.4%	34.8%
lcr	57.3%	20.0%
livecodebench	—	54.6%
math 500	—	—
mmlu pro	—	72.9%
scicode	38.4%	34.6%
tau2	52.6%	26.6%
terminalbench hard	33.3%	9.8%

Benchmark data from Artificial Analysis.