Qwen3.5 4B (Non-reasoning) vs Grok 3 mini Reasoning (high)

Alibaba vs xAI — side-by-side benchmark comparison

	Qwen3.5 4B (Non-reasoning)	Grok 3 mini Reasoning (high)
Intelligence Index	22.6	32.1
Coding Index	13.7	25.2
Math Index	—	84.7
Output speed (tok/s)	210.0	56.8
Blended price ($/1M)	$0.06	$0.35
Time to first token (s)	0.23s	0.42s
aime	—	93.3%
aime 25	—	84.7%
artificial analysis coding index	13.70	25.20
artificial analysis intelligence index	22.60	32.10
artificial analysis math index	—	84.70
gpqa	71.2%	79.1%
hle	7.5%	11.1%
ifbench	33.3%	45.9%
lcr	28.3%	50.3%
livecodebench	—	69.6%
math 500	—	99.2%
mmlu pro	—	82.8%
scicode	18.3%	40.6%
tau2	87.7%	90.4%
terminalbench hard	11.4%	17.4%

Benchmark data from Artificial Analysis.