View a markdown version of this page

Servicestufen zur Optimierung von Leistung und Kosten - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Servicestufen zur Optimierung von Leistung und Kosten

Amazon Bedrock bietet vier Servicestufen für Model-Inferenz: Reserved, Priority, Standard und Flex. Mit Servicestufen können Sie Verfügbarkeit, Kosten und Leistung optimieren.

Reservierte Stufe

Die reservierte Stufe bietet die Möglichkeit, priorisierte Rechenkapazität für Ihre geschäftskritischen Anwendungen zu reservieren, die keine Ausfallzeiten tolerieren können. Sie haben die Flexibilität, unterschiedliche Eingangs- und tokens-per-minute Ausgangskapazitäten zuzuweisen, um den genauen Anforderungen Ihrer Arbeitslast gerecht zu werden und die Kosten zu kontrollieren. Wenn Ihre Anwendung mehr tokens-per-minute Kapazität benötigt als die, die Sie reserviert haben, wird der Service automatisch in die Standard-Stufe übergeleitet, sodass ein unterbrechungsfreier Betrieb gewährleistet ist. Die Stufe Reserved zielt auf eine Verfügbarkeit von 99,5% für die Reaktionszeit des Modells ab. Kunden können Kapazität für einen oder drei Monate reservieren. Kunden zahlen einen Festpreis pro 1.000€ tokens-per-minute und erhalten eine monatliche Abrechnung.

Für den Tarif „Reserved“ gelten die folgenden Mindestkapazitätsanforderungen:

  • Mindesteingabe tokens-per-minute (TPM): 100.000

  • Mindestleistung tokens-per-minute (TPM): 10.000

Um Zugriff auf das reservierte Kontingent zu erhalten, wenden Sie sich bitte an Ihr AWS-Kundenbetreuungsteam.

Anmerkung

Die Abrechnung wird fortgesetzt, bis Sie mit Hilfe Ihres AWS-Konto Managers die Reservierung für das reservierte Kontingent löschen.

Prioritätsstufe

Die Prioritätsstufe bietet die schnellsten Reaktionszeiten zu einem höheren Preis als die Standardpreise auf Abruf. Sie eignet sich am besten für unternehmenskritische Anwendungen mit kundenorientierten Geschäftsabläufen, die eine Kapazitätsreservierung rund um die Uhr nicht rechtfertigen. Für die Prioritätsstufe ist keine vorherige Reservierung erforderlich. Sie können den optionalen Parameter „service_tier“ einfach auf „priority“ setzen, um die Priorisierung auf Anforderungsebene zu nutzen. Anfragen der Stufe „Priorität“ werden gegenüber Anfragen der Stufen „Standard“ und „Flex“ priorisiert.

Stufe „Standard“

Die Standardstufe bietet konsistente Leistung für alltägliche KI-Aufgaben wie Inhaltsgenerierung, Textanalyse und routinemäßige Dokumentenverarbeitung. Standardmäßig werden alle Inferenzanfragen an die Standardstufe weitergeleitet, wenn der Parameter „service_tier“ fehlt. Sie können den optionalen Parameter „service_tier“ auch auf „default“ setzen, damit Ihre Inferenzanforderung mit der Standardstufe bearbeitet wird.

Flex-Stufe

Für Workloads, die längere Verarbeitungszeiten bewältigen können, bietet die Flex-Stufe kostengünstige Verarbeitung zu einem discount Preis. Auf diese Weise können Sie die Kosten für Workloads wie Modellevaluierungen, Inhaltszusammenfassungen und behördliche Workflows optimieren. Sie können den optionalen Parameter „service_tier“ auf „flex“ setzen, damit Ihre Inferenzanfrage mit dem Flex-Tarif bearbeitet wird und Sie den Preisnachlass in Anspruch nehmen können.

Nutzung der Service-Tier-Funktion

Um auf die Service-Tier-Funktion zuzugreifen, können Sie den optionalen Parameter „service_tier“ auf „reserved“, „priority“, „default“ oder „flex“ setzen, während Sie die Amazon Bedrock Runtime API aufrufen.

"service_tier" : "reserved | priority | default | flex"

Ihr On-Demand-Kontingent für ein Modell wird auf die Servicestufen „Priority“, „Standard“ und „Flex“ aufgeteilt. Ihre Kapazitätsreservierung für die „reservierte“ Stufe erfolgt unabhängig von Ihrem On-Demand-Kontingent. Die Service-Tier-Konfiguration für eine bearbeitete Anfrage ist in der API-Antwort und in CloudTrail AWS-Ereignissen sichtbar. Sie können auch Kennzahlen zur Serviceebene in Amazon CloudWatch Metrics unter ModelId, und ServiceTier, einsehen ResolvedServiceTier, wo die tatsächliche Stufe ResolvedServiceTier angezeigt wird, die Ihre Anfragen bearbeitet hat.

Weitere Informationen zur Preisgestaltung finden Sie auf der Seite mit den Preisen.

Bitte gehen Sie zu Modelle auf einen Blick und wählen Sie das Modell aus, an dem Sie interessiert sind, um zu sehen, welche Servicestufe dieses Modell unterstützt.

Informationen zur Steuerung des Zugriffs auf Servicestufen finden Sie unter Steuern Sie den Zugriff auf Serviceebenen