Llama 3.1 Nemotron Ultra 253B v1 (Reasoning) vs o4-mini (high)

NVIDIA vs OpenAI — side-by-side benchmark comparison

	Llama 3.1 Nemotron Ultra 253B v1 (Reasoning)	o4-mini (high)
Intelligence Index	15.0	33.1
Coding Index	13.1	25.6
Math Index	63.7	90.7
Output speed (tok/s)	52.3	160.5
Blended price ($/1M)	$0.90	$1.93
Time to first token (s)	0.76s	23.07s
aime	74.7%	94.0%
aime 25	63.7%	90.7%
artificial analysis coding index	13.10	25.60
artificial analysis intelligence index	15.00	33.10
artificial analysis math index	63.70	90.70
gpqa	72.8%	78.4%
hle	8.1%	17.5%
ifbench	38.2%	68.7%
lcr	7.3%	55.0%
livecodebench	64.1%	85.9%
math 500	95.2%	98.9%
mmlu pro	82.5%	83.2%
scicode	34.7%	46.5%
tau2	11.4%	55.6%
terminalbench hard	2.3%	15.2%

Benchmark data from Artificial Analysis.