Servicestufen zur Optimierung von Leistung und Kosten - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Servicestufen zur Optimierung von Leistung und Kosten

Amazon Bedrock bietet vier Servicestufen für Model-Inferenz: Reserved, Priority, Standard und Flex. Mit Servicestufen können Sie Verfügbarkeit, Kosten und Leistung optimieren.

Reservierte Stufe

Die reservierte Stufe bietet die Möglichkeit, priorisierte Rechenkapazität für Ihre geschäftskritischen Anwendungen zu reservieren, die keine Ausfallzeiten tolerieren können. Sie haben die Flexibilität, unterschiedliche Eingangs- und tokens-per-minute Ausgangskapazitäten zuzuweisen, um den genauen Anforderungen Ihrer Arbeitslast gerecht zu werden und die Kosten zu kontrollieren. Wenn Ihre Anwendung mehr tokens-per-minute Kapazität benötigt als die, die Sie reserviert haben, wird der Service automatisch in die Standard-Stufe übergeleitet, sodass ein unterbrechungsfreier Betrieb gewährleistet ist. Die Stufe Reserved zielt auf eine Verfügbarkeit von 99,5% für die Reaktionszeit des Modells ab. Kunden können Kapazität für einen oder drei Monate reservieren. Kunden zahlen einen Festpreis pro 1.000€ tokens-per-minute und erhalten eine monatliche Abrechnung.

Um Zugriff auf das reservierte Kontingent zu erhalten, wenden Sie sich bitte an Ihr AWS-Kundenbetreuungsteam.

Vorrangige Stufe

Die Prioritätsstufe bietet die schnellsten Reaktionszeiten zu einem höheren Preis als die Standardpreise auf Abruf. Sie eignet sich am besten für unternehmenskritische Anwendungen mit kundenorientierten Geschäftsabläufen, die eine Kapazitätsreservierung rund um die Uhr nicht rechtfertigen. Für die Prioritätsstufe ist keine vorherige Reservierung erforderlich. Sie können den optionalen Parameter „service_tier“ einfach auf „priority“ setzen, um die Priorisierung auf Anforderungsebene zu nutzen. Anfragen der Stufe „Priorität“ werden gegenüber Anfragen der Stufen „Standard“ und „Flex“ priorisiert.

Stufe „Standard“

Die Standardstufe bietet konsistente Leistung für alltägliche KI-Aufgaben wie Inhaltsgenerierung, Textanalyse und routinemäßige Dokumentenverarbeitung. Standardmäßig werden alle Inferenzanfragen an die Standardstufe weitergeleitet, wenn der Parameter „service_tier“ fehlt. Sie können den optionalen Parameter „service_tier“ auch auf „default“ setzen, damit Ihre Inferenzanforderung mit der Standardstufe bearbeitet wird.

Flex-Stufe

Für Workloads, die längere Verarbeitungszeiten bewältigen können, bietet die Flex-Stufe kostengünstige Verarbeitung zu einem discount Preis. Auf diese Weise können Sie die Kosten für Workloads wie Modellevaluierungen, Inhaltszusammenfassungen und behördliche Workflows optimieren. Sie können den optionalen Parameter „service_tier“ auf „flex“ setzen, damit Ihre Inferenzanfrage mit dem Flex-Tarif bearbeitet wird und Sie den Preisnachlass in Anspruch nehmen können.

Nutzung der Service-Tier-Funktion

Um auf die Service-Tier-Funktion zuzugreifen, können Sie den optionalen Parameter „service_tier“ auf „reserved“, „priority“, „default“ oder „flex“ setzen, während Sie die Amazon Bedrock Runtime API aufrufen.

"service_tier" : "reserved | priority | default | flex"

Ihr On-Demand-Kontingent für ein Modell wird auf die Servicestufen „Priority“, „Standard“ und „Flex“ aufgeteilt. Ihre Kapazitätsreservierung für die „reservierte“ Stufe erfolgt unabhängig von Ihrem On-Demand-Kontingent. Die Service-Tier-Konfiguration für eine bearbeitete Anfrage ist in der API-Antwort und in CloudTrail AWS-Ereignissen sichtbar. Sie können auch Kennzahlen zur Serviceebene in Amazon CloudWatch Metrics unter ModelId, und ServiceTier, einsehen ResolvedServiceTier, wo die tatsächliche Stufe ResolvedServiceTier angezeigt wird, die Ihre Anfragen bearbeitet hat.

Weitere Informationen zur Preisgestaltung finden Sie auf der Seite mit den Preisen.

Modelle und Regionen, die von der Servicestufe Reserved unterstützt werden:

Anbieter Model Model IDs Regionen
Anthropic Claude Sonnet 4.5

global.anthropic.claude-sonnet-4-5-20250929-v 1:0

us.anthropic.claude-sonnet-4-5-20250929-v 1:0

ap-northeast-1
ap-northeast-2
ap-northeast-3
ap-southeast-1
ap-southeast-2
ap-south-1
ap-southeast-3
ap-south-2
ap-southeast-4
ca-central-1
Europa-West-1
Europa-Zentral-1
Mitteleuropa-2
Europa-Nord-1
Europa-Süd-1
Europa-Süd-2
Europa-West-2
Europa-West-3
sa-east-1
us-east-1
us-east-2
us-west-1
us-west-2
Anmerkung

Die Kontextlänge von 1 Million für Sonnet 4.5 wird von der reservierten Stufe nicht unterstützt.

Modelle und Regionen, die von den Servicestufen Priority und Flex unterstützt werden:

Anbieter Model Modell-ID Regionen
OpenAI gpt-oss-120b openai.gpt-oss-120b-1:0 us-east-1
us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-central-1
eu-north-1
eu-south-1
eu-west-1
eu-west-2
sa-east-1
OpenAI gpt-oss-20b openai.gpt-oss-20b-1:0 us-east-1
us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-central-1
eu-north-1
eu-south-1
eu-west-1
eu-west-2
sa-east-1
OpenAI GPT OSS Safeguard 20B Openai. gpt-oss-safeguard-20b ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
OpenAI GPT OSS Safeguard 120 B Openai. gpt-oss-safeguard-120 b ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Qwen Qwen3 235 B A22B 2507 qwen.qwen3-235b-a22b-2507-v 1:0 us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-central-1
eu-north-1
eu-south-1
eu-west-2
Qwen Qwen3 Coder 480B A35B Einweisen qwen.qwen3-coder-480b-a35b-v 1:0 us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-north-1
eu-west-2
Qwen Qwen3-Coder-30B-A3B-Instruktor qwen.qwen3-coder-30b-a3b-v 1:0 us-east-1
us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-central-1
eu-north-1
eu-south-1
eu-west-1
eu-west-2
sa-east-1
Qwen Qwen3 32B (dicht) qwen.qwen3-32b-v 1:0 us-east-1
us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-central-1
eu-north-1
eu-south-1
eu-west-1
eu-west-2
sa-east-1
Qwen Qwen3 Weiter 80B A3B qwen.qwen3-next-80b-a3b ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Qwen Qwen3 VL 235B A22B qwen.qwen3-vl-235b-a22b ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
DeepSeek DeepSeek-V 3.1 deepseek.v3-v 1:0 us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-north-1
eu-west-2
Amazon Nova Premier Amazonas. nova-premier-v1:0 us-east-1*
us-east-2*
us-west-2*
Amazon Nova Pro Amazonas. nova-pro-v1:0 us-east-1
us-east-2*
us-west-1*
us-west-2*
ap-ost-2*
ap-nordost-1*
ap-nordost-2*
ap-south-1*
ap-Südost-1*
ap-southeast-2
ap-southeast-3
ap-Südost-4*
ap-Southeast-5*
ap-Südost-7*
eu-central-1*
eu-nord-1*
EU-Süd-1*
EU-Süd-2*
eu-west-1*
eu-west-2
eu-west-3*
il-central-1*
me-central-1
Amazon Nova 2 Lite amazon.nova-2-lite-v 1:0 ap-east-2
ap-northeast-1
ap-northeast-2
ap-south-1
ap-southeast-1
ap-southeast-2
ap-southeast-3
ap-southeast-4
ap-southeast-5
ap-southeast-7
ca-central-1
ca-west-1
eu-central-1
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
il-central-1
me-central-1
us-east-1
us-east-2
us-west-1
us-west-2
Amazon Nova 2 Pro Vorschau amazon.nova-2-pro-vorschau-20251202-v 1:0 ap-east-2
ap-northeast-1
ap-northeast-2
ap-south-1
ap-southeast-1
ap-southeast-2
ap-southeast-3
ap-southeast-4
ap-southeast-5
ap-southeast-7
ca-central-1
ca-west-1
eu-central-1
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
il-central-1
me-central-1
us-east-1
us-east-2
us-west-1
us-west-2
Amazon Nova Lite 2 Omni amazon.nova-2-1 lite-omni-v ap-east-2
ap-northeast-1
ap-northeast-2
ap-south-1
ap-southeast-1
ap-southeast-2
ap-southeast-3
ap-southeast-4
ap-southeast-5
ap-southeast-7
ca-central-1
ca-west-1
eu-central-1
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
il-central-1
me-central-1
us-east-1
us-east-2
us-west-1
us-west-2
Google Gemma 3, 4B google.gemma-3-4b-it ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Google Gemma 3 12B google.gemma-3-12b-it ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Google Gemma 3, 27 B google.gemma-3-27b-it ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Minimax KI Minimax M2 Minimax.Minimax-M2 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Magistral Small 1.2 Mistral.Magistral-Klein-2509 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Voxtral Mini 1.0 mistral.voxtral-mini-3b-2507 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Voxtral Small 1.0 mistral.voxtral-small-24b-2507 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Ministry 3B 3.0 mistral.ministral-3-3b-instruct ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Ministral 8B 3.0 mistral.ministral-3-8b-instruct ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Ministral 14B 3.0 mistral.ministral-3-14b-instruct ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Mistral Large 3 mistral.mistral-large-3-675b-instruct ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Kimi AI Kimi K2 denkt moonshot.kimi-K2-Denken ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Nvidia NVIDIA Nemotron Nano 2 nvidia.nemotron-nano-9b-v2 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Nvidia NVIDIA Nemotron Nano 2 VL nvidia.nemotron-nano-12b-v2 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2

*Die Modellinferenz kann unter Verwendung mehrerer Regionen durchgeführt werden.

Informationen zur Steuerung des Zugriffs auf Serviceebenen finden Sie unter Steuern Sie den Zugriff auf Serviceebenen