Llama 3 Instruct 8B vs Claude 4 Sonnet (Reasoning)

Meta vs Anthropic — side-by-side benchmark comparison

	Llama 3 Instruct 8B	Claude 4 Sonnet (Reasoning)
Intelligence Index	6.4	38.7
Coding Index	4.0	34.1
Math Index	—	74.3
Output speed (tok/s)	83.3	55.5
Blended price ($/1M)	$0.07	$6.56
Time to first token (s)	0.47s	8.92s
aime	0.0%	77.3%
aime 25	—	74.3%
artificial analysis coding index	4.00	34.10
artificial analysis intelligence index	6.40	38.70
artificial analysis math index	—	74.30
gpqa	29.6%	77.7%
hle	5.1%	9.6%
ifbench	24.6%	54.7%
lcr	0.0%	64.7%
livecodebench	9.6%	65.5%
math 500	49.9%	99.1%
mmlu pro	40.5%	84.2%
scicode	11.9%	40.0%
tau2	0.0%	64.6%
terminalbench hard	0.0%	31.1%

Benchmark data from Artificial Analysis.