Who has the fastest gpt-oss-120b inference?

Cerebras serves gpt-oss-120b at 850 tokens/sec. Wafer-scale chip. For latency-sensitive workloads this is usually the right pick even if not the cheapest.

Is the output quality identical across all providers hosting gpt-oss-120b?

The weights are identical · Apache 2.0. Differences come from quantization (some providers use int8 or fp8 for speed), context window caps, and provider-added safety filters.

What are cheaper alternative models to gpt-oss-120b?

See our substitute finder for models within 10% performance at lower price.

Arbitrage · gpt-oss-120b5 providers · $0.150 → $0.400 · 63% spread

Cheapest Provider for gpt-oss-120b

OpenAI's larger open release · reasoning-capable · still cheap on optimized stacks.

120BApache 2.0Model detail page →

Cheapest input

Groq

$0.150/M

Speed leader

Fastest

Cerebras

850 tok/s

Wafer-scale chip

Savings calculator

Save 63%

vs DeepInfra at $0.400/M input. For 100M tokens/mo, that is $25/mo saved by routing to Groq.

Sorted by input price

All 5 providers

Provider	In $/M	Out $/M	Context	Speed	Free	Region
GroqWinner	$0.150	$0.600	128K	500 t/s		US
Fireworks AI	$0.180	$0.720	128K	160 t/s		US
Cerebras	$0.200	$0.900	128K	850 t/s		US
Together AI	$0.220	$0.600	128K	120 t/s		US
D DeepInfra	$0.400	$1.20	128K	100 t/s	—	US

Notes: Groq · Speed leader ; Fireworks AI · Standard serverless ; Cerebras · Wafer-scale chip ; Together AI · Flat pricing ; DeepInfra · Higher markup

Frequently Asked Questions

Groq at $0.150/M input and $0.600/M output. That is 63% cheaper than DeepInfra. Speed leader.

Cheapest Provider for gpt-oss-120b

All 5 providers

Models cheaper than gpt-oss-120b

Frequently Asked Questions

This model

Arbitrage

Explore