Reservierte Stufe Vorrangige Stufe Stufe „Standard“Flex-Stufe Nutzung der Service-Tier-Funktion

Servicestufen zur Optimierung von Leistung und Kosten

Amazon Bedrock bietet vier Servicestufen für Model-Inferenz: Reserved, Priority, Standard und Flex. Mit Servicestufen können Sie Verfügbarkeit, Kosten und Leistung optimieren.

Reservierte Stufe

Die reservierte Stufe bietet die Möglichkeit, priorisierte Rechenkapazität für Ihre geschäftskritischen Anwendungen zu reservieren, die keine Ausfallzeiten tolerieren können. Sie haben die Flexibilität, unterschiedliche Eingangs- und tokens-per-minute Ausgangskapazitäten zuzuweisen, um den genauen Anforderungen Ihrer Arbeitslast gerecht zu werden und die Kosten zu kontrollieren. Wenn Ihre Anwendung mehr tokens-per-minute Kapazität benötigt als die, die Sie reserviert haben, wird der Service automatisch in die Standard-Stufe übergeleitet, sodass ein unterbrechungsfreier Betrieb gewährleistet ist. Die Stufe Reserved zielt auf eine Verfügbarkeit von 99,5% für die Reaktionszeit des Modells ab. Kunden können Kapazität für einen oder drei Monate reservieren. Kunden zahlen einen Festpreis pro 1.000€ tokens-per-minute und erhalten eine monatliche Abrechnung.

Um Zugriff auf das reservierte Kontingent zu erhalten, wenden Sie sich bitte an Ihr AWS-Kundenbetreuungsteam.

Vorrangige Stufe

Die Prioritätsstufe bietet die schnellsten Reaktionszeiten zu einem höheren Preis als die Standardpreise auf Abruf. Sie eignet sich am besten für unternehmenskritische Anwendungen mit kundenorientierten Geschäftsabläufen, die eine Kapazitätsreservierung rund um die Uhr nicht rechtfertigen. Für die Prioritätsstufe ist keine vorherige Reservierung erforderlich. Sie können den optionalen Parameter „service_tier“ einfach auf „priority“ setzen, um die Priorisierung auf Anforderungsebene zu nutzen. Anfragen der Stufe „Priorität“ werden gegenüber Anfragen der Stufen „Standard“ und „Flex“ priorisiert.

Stufe „Standard“

Die Standardstufe bietet konsistente Leistung für alltägliche KI-Aufgaben wie Inhaltsgenerierung, Textanalyse und routinemäßige Dokumentenverarbeitung. Standardmäßig werden alle Inferenzanfragen an die Standardstufe weitergeleitet, wenn der Parameter „service_tier“ fehlt. Sie können den optionalen Parameter „service_tier“ auch auf „default“ setzen, damit Ihre Inferenzanforderung mit der Standardstufe bearbeitet wird.

Flex-Stufe

Für Workloads, die längere Verarbeitungszeiten bewältigen können, bietet die Flex-Stufe kostengünstige Verarbeitung zu einem discount Preis. Auf diese Weise können Sie die Kosten für Workloads wie Modellevaluierungen, Inhaltszusammenfassungen und behördliche Workflows optimieren. Sie können den optionalen Parameter „service_tier“ auf „flex“ setzen, damit Ihre Inferenzanfrage mit dem Flex-Tarif bearbeitet wird und Sie den Preisnachlass in Anspruch nehmen können.

Nutzung der Service-Tier-Funktion

Um auf die Service-Tier-Funktion zuzugreifen, können Sie den optionalen Parameter „service_tier“ auf „reserved“, „priority“, „default“ oder „flex“ setzen, während Sie die Amazon Bedrock Runtime API aufrufen.


"service_tier" : "reserved | priority | default | flex"

Ihr On-Demand-Kontingent für ein Modell wird auf die Servicestufen „Priority“, „Standard“ und „Flex“ aufgeteilt. Ihre Kapazitätsreservierung für die „reservierte“ Stufe erfolgt unabhängig von Ihrem On-Demand-Kontingent. Die Service-Tier-Konfiguration für eine bearbeitete Anfrage ist in der API-Antwort und in CloudTrail AWS-Ereignissen sichtbar. Sie können auch Kennzahlen zur Serviceebene in Amazon CloudWatch Metrics unter ModelId, und ServiceTier, einsehen ResolvedServiceTier, wo die tatsächliche Stufe ResolvedServiceTier angezeigt wird, die Ihre Anfragen bearbeitet hat.

Weitere Informationen zur Preisgestaltung finden Sie auf der Seite mit den Preisen.

Modelle und Regionen, die von der Servicestufe Reserved unterstützt werden:

Anbieter	Model	Model IDs	Regionen
Anthropic	Claude Sonnet 4.5	global.anthropic.claude-sonnet-4-5-20250929-v 1:0 us.anthropic.claude-sonnet-4-5-20250929-v 1:0	ap-northeast-1
			ap-northeast-2
			ap-northeast-3
			ap-southeast-1
			ap-southeast-2
			ap-south-1
			ap-southeast-3
			ap-south-2
			ap-southeast-4
			ca-central-1
			Europa-West-1
			Europa-Zentral-1
			Mitteleuropa-2
			Europa-Nord-1
			Europa-Süd-1
			Europa-Süd-2
			Europa-West-2
			Europa-West-3
			sa-east-1
			us-east-1
			us-east-2
			us-west-1
			us-west-2

Anmerkung

Die Kontextlänge von 1 Million für Sonnet 4.5 wird von der reservierten Stufe nicht unterstützt.

Modelle und Regionen, die von den Servicestufen Priority und Flex unterstützt werden:

Anbieter	Model	Modell-ID	Regionen
OpenAI	gpt-oss-120b	openai.gpt-oss-120b-1:0	us-east-1
			us-east-2
			us-west-2
			ap-northeast-1
			ap-south-1
			ap-southeast-3
			eu-central-1
			eu-north-1
			eu-south-1
			eu-west-1
			eu-west-2
			sa-east-1
OpenAI	gpt-oss-20b	openai.gpt-oss-20b-1:0	us-east-1
			us-east-2
			us-west-2
			ap-northeast-1
			ap-south-1
			ap-southeast-3
			eu-central-1
			eu-north-1
			eu-south-1
			eu-west-1
			eu-west-2
			sa-east-1
OpenAI	GPT OSS Safeguard 20B	Openai. gpt-oss-safeguard-20b	ap-northeast-1
			ap-south-1
			ap-southeast-2
			ap-southeast-3
			ca-central-1
			eu-central-1
			eu-central-2
			eu-north-1
			eu-south-1
			eu-south-2
			eu-west-1
			eu-west-2
			eu-west-3
			sa-east-1
			us-east-1
			us-east-2
			us-west-2
OpenAI	GPT OSS Safeguard 120 B	Openai. gpt-oss-safeguard-120 b	ap-northeast-1
			ap-south-1
			ap-southeast-2
			ap-southeast-3
			ca-central-1
			eu-central-1
			eu-central-2
			eu-north-1
			eu-south-1
			eu-south-2
			eu-west-1
			eu-west-2
			eu-west-3
			sa-east-1
			us-east-1
			us-east-2
			us-west-2
Qwen	Qwen3 235 B A22B 2507	qwen.qwen3-235b-a22b-2507-v 1:0	us-east-2
			us-west-2
			ap-northeast-1
			ap-south-1
			ap-southeast-3
			eu-central-1
			eu-north-1
			eu-south-1
			eu-west-2
Qwen	Qwen3 Coder 480B A35B Einweisen	qwen.qwen3-coder-480b-a35b-v 1:0	us-east-2
			us-west-2
			ap-northeast-1
			ap-south-1
			ap-southeast-3
			eu-north-1
			eu-west-2
Qwen	Qwen3-Coder-30B-A3B-Instruktor	qwen.qwen3-coder-30b-a3b-v 1:0	us-east-1
			us-east-2
			us-west-2
			ap-northeast-1
			ap-south-1
			ap-southeast-3
			eu-central-1
			eu-north-1
			eu-south-1
			eu-west-1
			eu-west-2
			sa-east-1
Qwen	Qwen3 32B (dicht)	qwen.qwen3-32b-v 1:0	us-east-1
			us-east-2
			us-west-2
			ap-northeast-1
			ap-south-1
			ap-southeast-3
			eu-central-1
			eu-north-1
			eu-south-1
			eu-west-1
			eu-west-2
			sa-east-1
Qwen	Qwen3 Weiter 80B A3B	qwen.qwen3-next-80b-a3b	ap-northeast-1
			ap-south-1
			ap-southeast-2
			ap-southeast-3
			ca-central-1
			eu-central-1
			eu-central-2
			eu-north-1
			eu-south-1
			eu-south-2
			eu-west-1
			eu-west-2
			eu-west-3
			sa-east-1
			us-east-1
			us-east-2
			us-west-2
Qwen	Qwen3 VL 235B A22B	qwen.qwen3-vl-235b-a22b	ap-northeast-1
			ap-south-1
			ap-southeast-2
			ap-southeast-3
			ca-central-1
			eu-central-1
			eu-central-2
			eu-north-1
			eu-south-1
			eu-south-2
			eu-west-1
			eu-west-2
			eu-west-3
			sa-east-1
			us-east-1
			us-east-2
			us-west-2
DeepSeek	DeepSeek-V 3.1	deepseek.v3-v 1:0	us-east-2
			us-west-2
			ap-northeast-1
			ap-south-1
			ap-southeast-3
			eu-north-1
			eu-west-2
Amazon	Nova Premier	Amazonas. nova-premier-v1:0	us-east-1*
			us-east-2*
			us-west-2*
Amazon	Nova Pro	Amazonas. nova-pro-v1:0	us-east-1
			us-east-2*
			us-west-1*
			us-west-2*
			ap-ost-2*
			ap-nordost-1*
			ap-nordost-2*
			ap-south-1*
			ap-Südost-1*
			ap-southeast-2
			ap-southeast-3
			ap-Südost-4*
			ap-Southeast-5*
			ap-Südost-7*
			eu-central-1*
			eu-nord-1*
			EU-Süd-1*
			EU-Süd-2*
			eu-west-1*
			eu-west-2
			eu-west-3*
			il-central-1*
			me-central-1
Amazon	Nova 2 Lite	amazon.nova-2-lite-v 1:0	ap-east-2
			ap-northeast-1
			ap-northeast-2
			ap-south-1
			ap-southeast-1
			ap-southeast-2
			ap-southeast-3
			ap-southeast-4
			ap-southeast-5
			ap-southeast-7
			ca-central-1
			ca-west-1
			eu-central-1
			eu-north-1
			eu-south-1
			eu-south-2
			eu-west-1
			eu-west-2
			eu-west-3
			il-central-1
			me-central-1
			us-east-1
			us-east-2
			us-west-1
			us-west-2
Amazon	Nova 2 Pro Vorschau	amazon.nova-2-pro-vorschau-20251202-v 1:0	ap-east-2
			ap-northeast-1
			ap-northeast-2
			ap-south-1
			ap-southeast-1
			ap-southeast-2
			ap-southeast-3
			ap-southeast-4
			ap-southeast-5
			ap-southeast-7
			ca-central-1
			ca-west-1
			eu-central-1
			eu-north-1
			eu-south-1
			eu-south-2
			eu-west-1
			eu-west-2
			eu-west-3
			il-central-1
			me-central-1
			us-east-1
			us-east-2
			us-west-1
			us-west-2
Amazon	Nova Lite 2 Omni	amazon.nova-2-1 lite-omni-v	ap-east-2
			ap-northeast-1
			ap-northeast-2
			ap-south-1
			ap-southeast-1
			ap-southeast-2
			ap-southeast-3
			ap-southeast-4
			ap-southeast-5
			ap-southeast-7
			ca-central-1
			ca-west-1
			eu-central-1
			eu-north-1
			eu-south-1
			eu-south-2
			eu-west-1
			eu-west-2
			eu-west-3
			il-central-1
			me-central-1
			us-east-1
			us-east-2
			us-west-1
			us-west-2
Google	Gemma 3, 4B	google.gemma-3-4b-it	ap-northeast-1
			ap-south-1
			ap-southeast-2
			ap-southeast-3
			ca-central-1
			eu-central-1
			eu-central-2
			eu-north-1
			eu-south-1
			eu-south-2
			eu-west-1
			eu-west-2
			eu-west-3
			sa-east-1
			us-east-1
			us-east-2
			us-west-2
Google	Gemma 3 12B	google.gemma-3-12b-it	ap-northeast-1
			ap-south-1
			ap-southeast-2
			ap-southeast-3
			ca-central-1
			eu-central-1
			eu-central-2
			eu-north-1
			eu-south-1
			eu-south-2
			eu-west-1
			eu-west-2
			eu-west-3
			sa-east-1
			us-east-1
			us-east-2
			us-west-2
Google	Gemma 3, 27 B	google.gemma-3-27b-it	ap-northeast-1
			ap-south-1
			ap-southeast-2
			ap-southeast-3
			ca-central-1
			eu-central-1
			eu-central-2
			eu-north-1
			eu-south-1
			eu-south-2
			eu-west-1
			eu-west-2
			eu-west-3
			sa-east-1
			us-east-1
			us-east-2
			us-west-2
Minimax KI	Minimax M2	Minimax.Minimax-M2	ap-northeast-1
			ap-south-1
			ap-southeast-2
			ap-southeast-3
			ca-central-1
			eu-central-1
			eu-central-2
			eu-north-1
			eu-south-1
			eu-south-2
			eu-west-1
			eu-west-2
			eu-west-3
			sa-east-1
			us-east-1
			us-east-2
			us-west-2
Mistral	Magistral Small 1.2	Mistral.Magistral-Klein-2509	ap-northeast-1
			ap-south-1
			ap-southeast-2
			ap-southeast-3
			ca-central-1
			eu-central-1
			eu-central-2
			eu-north-1
			eu-south-1
			eu-south-2
			eu-west-1
			eu-west-2
			eu-west-3
			sa-east-1
			us-east-1
			us-east-2
			us-west-2
Mistral	Voxtral Mini 1.0	mistral.voxtral-mini-3b-2507	ap-northeast-1
			ap-south-1
			ap-southeast-2
			ap-southeast-3
			ca-central-1
			eu-central-1
			eu-central-2
			eu-north-1
			eu-south-1
			eu-south-2
			eu-west-1
			eu-west-2
			eu-west-3
			sa-east-1
			us-east-1
			us-east-2
			us-west-2
Mistral	Voxtral Small 1.0	mistral.voxtral-small-24b-2507	ap-northeast-1
			ap-south-1
			ap-southeast-2
			ap-southeast-3
			ca-central-1
			eu-central-1
			eu-central-2
			eu-north-1
			eu-south-1
			eu-south-2
			eu-west-1
			eu-west-2
			eu-west-3
			sa-east-1
			us-east-1
			us-east-2
			us-west-2
Mistral	Ministry 3B 3.0	mistral.ministral-3-3b-instruct	ap-northeast-1
			ap-south-1
			ap-southeast-2
			ap-southeast-3
			ca-central-1
			eu-central-1
			eu-central-2
			eu-north-1
			eu-south-1
			eu-south-2
			eu-west-1
			eu-west-2
			eu-west-3
			sa-east-1
			us-east-1
			us-east-2
			us-west-2
Mistral	Ministral 8B 3.0	mistral.ministral-3-8b-instruct	ap-northeast-1
			ap-south-1
			ap-southeast-2
			ap-southeast-3
			ca-central-1
			eu-central-1
			eu-central-2
			eu-north-1
			eu-south-1
			eu-south-2
			eu-west-1
			eu-west-2
			eu-west-3
			sa-east-1
			us-east-1
			us-east-2
			us-west-2
Mistral	Ministral 14B 3.0	mistral.ministral-3-14b-instruct	ap-northeast-1
			ap-south-1
			ap-southeast-2
			ap-southeast-3
			ca-central-1
			eu-central-1
			eu-central-2
			eu-north-1
			eu-south-1
			eu-south-2
			eu-west-1
			eu-west-2
			eu-west-3
			sa-east-1
			us-east-1
			us-east-2
			us-west-2
Mistral	Mistral Large 3	mistral.mistral-large-3-675b-instruct	ap-northeast-1
			ap-south-1
			ap-southeast-2
			ap-southeast-3
			ca-central-1
			eu-central-1
			eu-central-2
			eu-north-1
			eu-south-1
			eu-south-2
			eu-west-1
			eu-west-2
			eu-west-3
			sa-east-1
			us-east-1
			us-east-2
			us-west-2
Kimi AI	Kimi K2 denkt	moonshot.kimi-K2-Denken	ap-northeast-1
			ap-south-1
			ap-southeast-2
			ap-southeast-3
			ca-central-1
			eu-central-1
			eu-central-2
			eu-north-1
			eu-south-1
			eu-south-2
			eu-west-1
			eu-west-2
			eu-west-3
			sa-east-1
			us-east-1
			us-east-2
			us-west-2
Nvidia	NVIDIA Nemotron Nano 2	nvidia.nemotron-nano-9b-v2	ap-northeast-1
			ap-south-1
			ap-southeast-2
			ap-southeast-3
			ca-central-1
			eu-central-1
			eu-central-2
			eu-north-1
			eu-south-1
			eu-south-2
			eu-west-1
			eu-west-2
			eu-west-3
			sa-east-1
			us-east-1
			us-east-2
			us-west-2
Nvidia	NVIDIA Nemotron Nano 2 VL	nvidia.nemotron-nano-12b-v2	ap-northeast-1
			ap-south-1
			ap-southeast-2
			ap-southeast-3
			ca-central-1
			eu-central-1
			eu-central-2
			eu-north-1
			eu-south-1
			eu-south-2
			eu-west-1
			eu-west-2
			eu-west-3
			sa-east-1
			us-east-1
			us-east-2
			us-west-2

*Die Modellinferenz kann unter Verwendung mehrerer Regionen durchgeführt werden.

Informationen zur Steuerung des Zugriffs auf Serviceebenen finden Sie unter Steuern Sie den Zugriff auf Serviceebenen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Optimieren der Modellinferenz für die Latenz

So generieren Sie Antworten mithilfe der API