Llama 3.1 Nemotron Ultra 253B v1 (Reasoning) vs GPT-4.1 nano

NVIDIA vs OpenAI — side-by-side benchmark comparison

	Llama 3.1 Nemotron Ultra 253B v1 (Reasoning)	GPT-4.1 nano
Intelligence Index	15.0	13.0
Coding Index	13.1	11.2
Math Index	63.7	24.0
Output speed (tok/s)	52.3	178.9
Blended price ($/1M)	$0.90	$0.17
Time to first token (s)	0.76s	0.40s
aime	74.7%	23.7%
aime 25	63.7%	24.0%
artificial analysis coding index	13.10	11.20
artificial analysis intelligence index	15.00	13.00
artificial analysis math index	63.70	24.00
gpqa	72.8%	51.2%
hle	8.1%	3.9%
ifbench	38.2%	32.0%
lcr	7.3%	17.0%
livecodebench	64.1%	32.6%
math 500	95.2%	84.8%
mmlu pro	82.5%	65.7%
scicode	34.7%	25.9%
tau2	11.4%	17.3%
terminalbench hard	2.3%	3.8%

Benchmark data from Artificial Analysis.