Claude 3.7 Sonnet (Reasoning) vs Qwen3 235B A22B 2507 (Reasoning)

Anthropic vs Alibaba — side-by-side benchmark comparison

	Claude 3.7 Sonnet (Reasoning)	Qwen3 235B A22B 2507 (Reasoning)
Intelligence Index	34.7	29.5
Coding Index	27.6	23.2
Math Index	56.3	91.0
Output speed (tok/s)	0.0	62.5
Blended price ($/1M)	$0.00	$0.84
Time to first token (s)	0.00s	1.21s
aime	48.7%	94.0%
aime 25	56.3%	91.0%
artificial analysis coding index	27.60	23.20
artificial analysis intelligence index	34.70	29.50
artificial analysis math index	56.30	91.00
gpqa	77.2%	79.0%
hle	10.3%	15.0%
ifbench	48.3%	51.2%
lcr	60.7%	67.0%
livecodebench	47.3%	78.8%
math 500	94.7%	98.4%
mmlu pro	83.7%	84.3%
scicode	40.3%	42.4%
tau2	54.7%	53.2%
terminalbench hard	21.2%	13.6%

Benchmark data from Artificial Analysis.