Claude 3.5 Sonnet (June '24) vs Grok 4.20 0309 v2 (Non-reasoning)

Anthropic vs xAI — side-by-side benchmark comparison

	Claude 3.5 Sonnet (June '24)	Grok 4.20 0309 v2 (Non-reasoning)
Intelligence Index	14.2	29.0
Coding Index	26.0	22.0
Math Index	—	—
Output speed (tok/s)	0.0	175.2
Blended price ($/1M)	$6.56	$3.00
Time to first token (s)	0.00s	0.47s
aime	9.7%	—
aime 25	—	—
artificial analysis coding index	26.00	22.00
artificial analysis intelligence index	14.20	29.00
artificial analysis math index	—	—
gpqa	56.0%	77.6%
hle	3.7%	24.2%
ifbench	—	49.3%
lcr	—	17.3%
livecodebench	—	—
math 500	69.5%	—
mmlu pro	75.1%	—
scicode	31.6%	32.8%
tau2	—	59.9%
terminalbench hard	—	16.7%

Benchmark data from Artificial Analysis.