Amazon-Bedrock-Endpunkte Endpunkt „Bedrock-Mantle“: Durchsatz und Kontingente Bedrock-Runtime-Endpunkt: Durchsatz und Kontingente Grundlegendes zu HTTP-Fehlerantworten Empfohlene Fehlerbehandlung Steigerung des Durchsatzes Weitere bewährte Methoden Regionale Verfügbarkeit und regionsübergreifende Inferenz Hilfe erhalten Zusammenfassung der Empfehlungen

Bewährte Methoden für Skalierung und Durchsatz

In diesem Thema wird erklärt, wie Durchsatzbeschränkungen und Planung auf Amazon Bedrock-Endpunkten funktionieren, und es werden bewährte Methoden für die Skalierung Ihrer generativen KI-Anwendungen vorgestellt.

Amazon-Bedrock-Endpunkte

Amazon Bedrock unterstützt zwei Endpunkte für Inferenz:

bedrock-mantle.{region}.api.aws— Unterstützt Chat-Abschlüsse und -Antworten (von OpenAI) und Nachrichten (von Anthropic).
bedrock-runtime.{region}.amazonaws.com— Unterstützt Bedrock-native APIs (Invoke und Converse), Chat-Abschlüsse und Nachrichten-APIs.

Weitere Informationen zu diesen Endpunkten und zur Auswahl zwischen ihnen finden Sie unter. Von Amazon Bedrock unterstützte Endgeräte

Warum verhalten sich die beiden Endpunkte unterschiedlich

Bei vielen traditionellen Multi-Tenant-Diensten ist die Architektur auf Kontingenten pro Konto ausgelegt, um einen fairen Zugriff auf gemeinsam genutzte Ressourcen zu gewährleisten. Dies ist der Ansatz, der bei verwendet wird. bedrock-runtime

Bei bedrock-mantlewird ein anderer Ansatz verwendet. Dieser Endpunkt ist mit fortschrittlichen Planungs- und Warteschlangenmechanismen ausgestattet, die eine faire Verteilung ermöglichen und gleichzeitig höhere anfängliche Durchsatzgrenzen unterstützen. Dieses Design ermöglicht es auch, eine breite Palette von Modellen bedrock-mantle zu hosten und die gesamte Bandbreite der Funktionen bereitzustellen, die im gesamten Modellkatalog verfügbar sind. In den meisten Fällen werden Anfragen sofort bearbeitet. In einigen Fällen kann es vorkommen, dass eine Anfrage kurzzeitig in die Warteschlange gestellt wird, während die laufenden Arbeitslasten abgeschlossen sind und der Durchsatz verfügbar ist. In den folgenden Abschnitten wird erklärt, wie mit diesen Szenarien umgegangen werden kann.

Endpunkt „`Bedrock-Mantle`“: Durchsatz und Kontingente

Das Durchsatz- und Kontingentverhalten auf dem bedrock-mantle Endpunkt unterscheidet sich bei Anthropic Claude von anderen Modellen, wie in der folgenden Tabelle dargestellt.

	Claude 4,7 und höher	Alle anderen Modelle
Geben Sie TPM ein	10 M *	Kein TPM-Limit pro Kunde oder Modell
TPM ausgeben	2 M	Kein TPM-Limit pro Kunde oder Modell
On-demand Stufen	Standard	Standard, Priority, Flex (einige Ausnahmen) — Informationen zur Verfügbarkeit finden Sie auf den Modelldetailseiten
Batch	Nein	Ja für unterstützte Modelle — Informationen zur Verfügbarkeit finden Sie auf den Modelldetailseiten
Reservierte Kapazität	Keine	Keine

* Ihr TPM-Eingabelimit hängt von Ihrer Nutzungshistorie bei Amazon Bedrock ab. Auf der Seite Kontingente in der Amazon Bedrock-Konsole finden Sie Ihre tatsächliche Zuteilung.

`Bedrock-Runtime-Endpunkt`: Durchsatz und Kontingente

In der folgenden Tabelle sind der Durchsatz und die Kontingente für zusammengefasst. bedrock-runtime

	Claude 4,7+	Alle anderen Modelle
Geben Sie TPM ein	15 M *	Variiert *
Ausgabe TPM	Kombiniert mit Eingabe-TPM. Burndown gilt.	Keine. Burndown gilt.
RPM	Nicht durchgesetzt — wird von TPM geregelt	Variiert je nach Modell — weitere Informationen finden Sie in der Service Quotas Quotas-Konsole
On-demand Stufen	Standard	Standard, Priority, Flex (einige Ausnahmen) — Informationen zur Verfügbarkeit finden Sie auf den Modelldetailseiten
Batch	Nein	Ja für unterstützte Modelle — Informationen zur Verfügbarkeit finden Sie auf den Modelldetailseiten
Reservierte Kapazität	Keine	Reservierte Tier/Provisioned Kapazität

* Die Kontingente für diese Modelle variieren je nach Nutzung. Auf der Seite Kontingente in der Amazon Bedrock-Konsole finden Sie Ihre Zuweisungen.

Grundlegendes zu HTTP-Fehlerantworten

HTTP 429: Eine 429-Antwort bedeutet, dass Ihre Anfrage gedrosselt wurde. Reduzieren Sie die Einreichungsrate Ihrer Anfragen. Einbedrock-runtime, wenn das Modell über ein RPM-Kontingent verfügt und Sie eine höhere Zuteilung benötigen, fordern Sie eine Erhöhung über die Service Quotas Quota-Konsole an oder wenden Sie sich an Ihr AWS-Konto Team.
HTTP 503: Eine Antwort von 503 bedeutet, dass in dieser Region eine erhöhte Nachfrage nach Amazon Bedrock besteht. Sie sollten Ihre Anforderungsrate reduzieren und es dann entweder mit exponentiellem Backoff erneut versuchen oder den Traffic auf mehrere Regionen verteilen.

Empfohlene Fehlerbehandlung

Vorübergehende Fehler (gelegentlich 503-Antworten)

Implementieren Sie einen exponentiellen Backoff mit zufälligem Jitter:

Beginnen Sie mit einer kurzen Verzögerung (z. B. 1 Sekunde).
Verdoppeln Sie die Verzögerung nach jedem fehlgeschlagenen Versuch.
Beschränken Sie die Wiederholungsversuche auf 6 Versuche.

Die meisten AWS SDKs und gängigen HTTP-Bibliotheken bieten integrierte Unterstützung für dieses Muster.

Beispiel `Versuchen Sie erneut, die Konfiguration für Bedrock-Runtime zu konfigurieren (`AWS SDK//boto3)


import boto3
from botocore.config import Config

config = Config(retries={"total_max_attempts": 6, "mode": "standard"})
client = boto3.client("bedrock-runtime", config=config)

Beispiel Konfiguration für `Bedrock-Mantle` erneut versuchen (OpenAI SDK)


from openai import OpenAI

client = OpenAI(
    api_key=api_key,
    base_url=f"https://bedrock-mantle.{region}.api.aws/v1",
    max_retries=6,
    timeout=60.0,
)

Beispiel `Versuchen Sie erneut, die Konfiguration für Bedrock-Mantle (Anthropic SDK) zu konfigurieren`


import anthropic

client = anthropic.Anthropic(
    api_key=api_key,
    base_url=f"https://bedrock-mantle.{region}.api.aws",
    max_retries=6,
    timeout=60.0,
)

Anhaltende Fehler (persistente 503-Antworten)

Wenn Sie anhaltende 503-Fehler erhalten, kann das Problem durch einen erneuten Versuch allein nicht behoben werden. Ihre Anforderungsrate übersteigt den verfügbaren Durchsatz. Gehen Sie dazu wie folgt vor:

Reduzieren Sie die Rate, mit der Ihre Anwendung neue Anfragen einreicht.
Implementieren Sie eine clientseitige Ratenbegrenzung oder Anforderungswarteschlangen.
Löschen Sie Anfragen mit niedrigerer Priorität, bis der Durchsatz wiederhergestellt ist.

Steigerung des Durchsatzes

Wenn der On-Demand-Durchsatz auf dem bedrock-mantleEndpunkt genutzt wird, steigt der verfügbare Durchsatz mit der Zeit. Es ist nicht garantiert, dass alle Anfragen innerhalb Ihres Kontingents in Zeiten hoher Nachfrage erfolgreich sind. Daher ist eine schrittweise Erhöhung wichtig.

Empfohlenes Verfahren zur Inbetriebnahme

Beginnen Sie mit dem gewünschten Anforderungsvolumen, z. B. 500 U/min.
Wenn Sie 503 Antworten erhalten, reduzieren Sie Ihre Rate, beispielsweise um 50%.
Reduzieren Sie weiter um diese Rate, bis Sie einen stabilen Zustand erreicht haben, in dem Anfragen durchweg erfolgreich sind.
Halten Sie diesen stabilen Zustand für eine kurze Zeit, sagen wir 15 Minuten, aufrecht.
Erhöhen Sie den Durchsatz erneut, beispielsweise um 50%, und halten Sie ihn für weitere 15 Minuten.
Wiederholen Sie den Vorgang, bis Sie Ihr Zielvolumen erreicht haben.

Wenn Ihr Ziel beispielsweise 2.000 U/min ist, Sie aber 503 Fehler erhalten, reduzieren Sie es auf 1.000 U/min. Wenn die Fehler weiterhin bestehen, reduzieren Sie die Geschwindigkeit auf 500 U/min. Sobald Anfragen bei 500 U/min konsistent erfolgreich sind, halten Sie den Vorgang 15 Minuten lang gedrückt und skalieren Sie dann auf 750, dann auf 1.125 usw.

Die Rampenraten sind nicht einstellbar. Um höhere TPM-Kontingente anzufordern, verwenden Sie die Service Quotas Quotas-Konsole oder wenden Sie sich an Ihr AWS-Konto Team.

Weitere bewährte Methoden

Verwenden Sie Feature-Flags, um den Verkehr schrittweise zwischen den Modellen zu verlagern, anstatt den gesamten Verkehr auf einmal umzuleiten.
Verteilen Sie große Workloads auf mehrere Minuten und berücksichtigen Sie Tageszeitmuster, um Spitzennutzungsperioden zu vermeiden.
Beginnen Sie mit Tests in kleinen Chargen und skalieren Sie diese schrittweise. Vermeiden Sie es, Tausende von Testanfragen gleichzeitig zu senden.
Verwenden Sie für die Verarbeitung großer Offline-Daten die Batch-API oder Flex Tier, wenn Ihre Anwendung Antworten asynchron verarbeiten kann.

Regionale Verfügbarkeit und regionsübergreifende Inferenz

On-demand Der Durchsatz wird auf regionaler Ebene zugewiesen und ist von Region zu Region unterschiedlich. Wenn Ihr Workload auf eine einzelne Region abzielt, können Sie in Zeiten hoher Nachfrage auf 503 Antworten stoßen. Um die Verfügbarkeit zu maximieren, und wenn Sie verwenden bedrock-runtime, verwenden SieGlobale regionsübergreifende Inferenz.

Hilfe erhalten

Durchsatzplanung — Wenden Sie sich an Ihr AWS-Konto Team, um Durchsatzprognosen zu erhalten. Planen Sie bei Skalierungsereignissen den 2- bis 3-fachen Spitzendurchsatz ein.
Leistungsoptimierung — Überwachen Sie die Effizienz der Token-Nutzung, optimieren Sie die Eingabeaufforderungen, um den Token-Verbrauch zu reduzieren, und wählen Sie Modelle auf der Grundlage Ihrer Anwendungsfallanforderungen aus.
Support-Eskalation — Wenn Sie eine AWS Support-Anfrage für Durchsatzprobleme eröffnen, geben Sie Folgendes an: spezifische Fehlercodes, Anfrage-IDs, Verkehrsmuster (RPM/TPM) und Ihren Skalierungszeitplan.

Zusammenfassung der Empfehlungen

Szenario	Empfehlung
Allgemeine Arbeitsbelastungen	Verwenden Sie den bedrock-mantleEndpunkt wann immer möglich.
Gelegentliche 503-Fehler	Versuchen Sie es erneut mit exponentiellem Backoff und Jitter.
Anhaltende 503-Fehler	Reduzieren Sie die Rate der Einreichung von Anfragen. Implementieren Sie eine clientseitige Ratenbegrenzung.
429 Fehler	Reduzieren Sie die Anforderungsrate. Ein`bedrock-runtime`, wenn das Modell über ein RPM-Kontingent verfügt, fordern Sie eine Erhöhung über Service Quotas an.
Umfangreiche Offline-Verarbeitung	Verwenden Sie Batch-API oder Flex Tier.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Prompt-Caching

Verfolgen Sie Nutzung und Kosten