Claude Opus 4.7 (Non-reasoning, High Effort) vs Hermes 4 - Llama-3.1 405B (Reasoning)

Anthropic vs Nous Research — side-by-side benchmark comparison

	Claude Opus 4.7 (Non-reasoning, High Effort)	Hermes 4 - Llama-3.1 405B (Reasoning)
Intelligence Index	51.8	18.6
Coding Index	53.1	16.0
Math Index	—	69.7
Output speed (tok/s)	47.8	38.6
Blended price ($/1M)	$10.94	$1.50
Time to first token (s)	1.04s	0.79s
aime	—	—
aime 25	—	69.7%
artificial analysis coding index	53.10	16.00
artificial analysis intelligence index	51.80	18.60
artificial analysis math index	—	69.70
gpqa	88.5%	72.7%
hle	31.2%	10.3%
ifbench	43.6%	32.7%
lcr	67.0%	20.7%
livecodebench	—	68.6%
math 500	—	—
mmlu pro	—	82.9%
scicode	50.1%	25.2%
tau2	74.0%	22.2%
terminalbench hard	54.5%	11.4%

Benchmark data from Artificial Analysis.