Llama 3.3 Instruct 70B vs Hermes 4 - Llama-3.1 70B (Reasoning)

Meta vs Nous Research — side-by-side benchmark comparison

	Llama 3.3 Instruct 70B	Hermes 4 - Llama-3.1 70B (Reasoning)
Intelligence Index	14.5	16.0
Coding Index	10.7	14.4
Math Index	7.7	68.7
Output speed (tok/s)	88.1	92.8
Blended price ($/1M)	$0.62	$0.20
Time to first token (s)	0.59s	0.64s
aime	30.0%	—
aime 25	7.7%	68.7%
artificial analysis coding index	10.70	14.40
artificial analysis intelligence index	14.50	16.00
artificial analysis math index	7.70	68.70
gpqa	49.8%	69.9%
hle	4.0%	7.9%
ifbench	47.1%	31.3%
lcr	15.0%	6.7%
livecodebench	28.8%	65.3%
math 500	77.3%	—
mmlu pro	71.3%	81.1%
scicode	26.0%	34.1%
tau2	26.6%	22.5%
terminalbench hard	3.0%	4.5%

Benchmark data from Artificial Analysis.