Hermes 4 - Llama-3.1 405B (Non-reasoning) vs Gemini 2.5 Flash (Reasoning)

Nous Research vs Google — side-by-side benchmark comparison

	Hermes 4 - Llama-3.1 405B (Non-reasoning)	Gemini 2.5 Flash (Reasoning)
Intelligence Index	17.6	27.0
Coding Index	18.1	22.2
Math Index	15.3	73.3
Output speed (tok/s)	40.8	205.5
Blended price ($/1M)	$1.50	$0.85
Time to first token (s)	0.73s	10.67s
aime	—	82.3%
aime 25	15.3%	73.3%
artificial analysis coding index	18.10	22.20
artificial analysis intelligence index	17.60	27.00
artificial analysis math index	15.30	73.30
gpqa	53.6%	79.0%
hle	4.2%	11.1%
ifbench	34.8%	50.3%
lcr	20.0%	61.7%
livecodebench	54.6%	69.5%
math 500	—	98.1%
mmlu pro	72.9%	83.2%
scicode	34.6%	39.4%
tau2	26.6%	31.6%
terminalbench hard	9.8%	13.6%

Benchmark data from Artificial Analysis.