NVIDIA cloud models

18 models tracked via Artificial Analysis. Compare cloud performance, then find local GGUF versions in the GraySoft model catalog.

Model	Intelligence	Speed (tok/s)
Nemotron 3 Ultra 550B A55B (Reasoning)	37.8	219.223
NVIDIA Nemotron 3 Super 120B A12B (Reasoning)	25.4	157.539
Nemotron Cascade 2 30B A3B	17.6	0
Nemotron 3 Nano Omni 30B A3B Reasoning	14.9	320.368
NVIDIA Nemotron 3 Nano 30B A3B (Reasoning)	14.2	133.94
Llama Nemotron Super 49B v1.5 (Reasoning)	12.4	78.657
Llama 3.3 Nemotron Super 49B v1 (Reasoning)	12.2	0
Llama 3.1 Nemotron Ultra 253B v1 (Reasoning)	9.1	53.866
NVIDIA Nemotron Nano 12B v2 VL (Reasoning)	9	77.003
NVIDIA Nemotron Nano 9B V2 (Reasoning)	8.8	90.739
Llama Nemotron Super 49B v1.5 (Non-reasoning)	8.7	69.926
NVIDIA Nemotron 3 Nano 4B	8.7	0
Llama 3.3 Nemotron Super 49B v1 (Non-reasoning)	8.5	0
Llama 3.1 Nemotron Nano 4B v1.1 (Reasoning)	8.5	0
Llama 3.1 Nemotron Instruct 70B	7.6	78.587
NVIDIA Nemotron 3 Nano 30B A3B (Non-reasoning)	7.4	96.98
NVIDIA Nemotron Nano 9B V2 (Non-reasoning)	7.4	138.775
NVIDIA Nemotron Nano 12B v2 VL (Non-reasoning)	4.6	164.49

Download guIDE — the AI-native code editor with local LLM inference and 69 built-in tools.