Llama 3.1 Tulu3 405B vs Qwen3 235B A22B 2507 (Reasoning)

Allen Institute for AI vs Alibaba — side-by-side benchmark comparison

	Llama 3.1 Tulu3 405B	Qwen3 235B A22B 2507 (Reasoning)
Intelligence Index	14.1	29.5
Coding Index	—	23.2
Math Index	—	91.0
Output speed (tok/s)	0.0	62.5
Blended price ($/1M)	$0.00	$0.84
Time to first token (s)	0.00s	1.21s
aime	13.3%	94.0%
aime 25	—	91.0%
artificial analysis coding index	—	23.20
artificial analysis intelligence index	14.10	29.50
artificial analysis math index	—	91.00
gpqa	51.6%	79.0%
hle	3.5%	15.0%
ifbench	—	51.2%
lcr	—	67.0%
livecodebench	29.1%	78.8%
math 500	77.8%	98.4%
mmlu pro	71.6%	84.3%
scicode	30.2%	42.4%
tau2	—	53.2%
terminalbench hard	—	13.6%

Benchmark data from Artificial Analysis.