Who has the fastest gpt-oss-20b inference?

Cerebras serves gpt-oss-20b at 1200 tokens/sec. Wafer-scale chip · extreme speed. For latency-sensitive workloads this is usually the right pick even if not the cheapest.

Is the output quality identical across all providers hosting gpt-oss-20b?

The weights are identical · Apache 2.0. Differences come from quantization (some providers use int8 or fp8 for speed), context window caps, and provider-added safety filters.

What are cheaper alternative models to gpt-oss-20b?

See our substitute finder for models within 10% performance at lower price.

Arbitrage · gpt-oss-20b5 providers · $0.040 → $0.120 · 67% spread

Cheapest Provider for gpt-oss-20b

OpenAI's open-weight release · Apache 2.0 · self-hostable on consumer GPUs.

20BApache 2.0Model detail page →

Cheapest input

Cerebras

$0.040/M

Wafer-scale chip · extreme speed

Fastest

Cerebras

1200 tok/s

Wafer-scale chip · extreme speed

Savings calculator

Save 67%

vs DeepInfra at $0.120/M input. For 100M tokens/mo, that is $8/mo saved by routing to Cerebras.

Sorted by input price

All 5 providers

Provider	In $/M	Out $/M	Context	Speed	Free	Region
CerebrasWinner	$0.040	$0.160	128K	1200 t/s		US
Groq	$0.050	$0.100	128K	900 t/s		US
Fireworks AI	$0.070	$0.280	128K	250 t/s		US
Together AI	$0.100	$0.100	128K	180 t/s		US
D DeepInfra	$0.120	$0.240	128K	120 t/s	—	US

Notes: Cerebras · Wafer-scale chip · extreme speed ; Groq · Fastest · LPU tokens/s leader ; Fireworks AI · Standard serverless ; Together AI · Flat output price ; DeepInfra · No free tier · fair price

Frequently Asked Questions

Cerebras at $0.040/M input and $0.160/M output. That is 67% cheaper than DeepInfra. Wafer-scale chip · extreme speed.

Cheapest Provider for gpt-oss-20b

All 5 providers

Models cheaper than gpt-oss-20b

Frequently Asked Questions

This model

Arbitrage

Explore