GPT-5.4 nano (Non-Reasoning) vs Llama 3.1 Nemotron Ultra 253B v1 (Reasoning)

OpenAI vs NVIDIA — side-by-side benchmark comparison

	GPT-5.4 nano (Non-Reasoning)	Llama 3.1 Nemotron Ultra 253B v1 (Reasoning)
Intelligence Index	24.4	15.0
Coding Index	27.9	13.1
Math Index	—	63.7
Output speed (tok/s)	157.4	52.3
Blended price ($/1M)	$0.46	$0.90
Time to first token (s)	0.54s	0.76s
aime	—	74.7%
aime 25	—	63.7%
artificial analysis coding index	27.90	13.10
artificial analysis intelligence index	24.40	15.00
artificial analysis math index	—	63.70
gpqa	55.8%	72.8%
hle	4.2%	8.1%
ifbench	32.7%	38.2%
lcr	24.7%	7.3%
livecodebench	—	64.1%
math 500	—	95.2%
mmlu pro	—	82.5%
scicode	35.2%	34.7%
tau2	34.8%	11.4%
terminalbench hard	24.2%	2.3%

Benchmark data from Artificial Analysis.