Kontingente für Amazon Bedrock - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Kontingente für Amazon Bedrock

Ihr AWS-Konto hat Standardkontingente, früher als Limits bezeichnet, für Amazon Bedrock. Gehen Sie wie folgt vor, um Servicekontingente für Amazon Bedrock anzuzeigen:

Um die Leistung des Service aufrechtzuerhalten und eine angemessene Nutzung von Amazon Bedrock sicherzustellen, können die einem Konto zugewiesenen Standardkontingente je nach regionalen Faktoren, Zahlungsverlauf, betrügerischer Nutzung und and/or Genehmigung einer Anfrage zur Erhöhung des Kontingents aktualisiert werden.

Anmerkung

Um die Leistung aufrechtzuerhalten und eine angemessene Nutzung von Amazon Bedrock sicherzustellen, AWS beschränken Sie Ihre Nutzung entsprechend den Kontingenten Ihres Kontos für Anfragen pro Minute (RPM), Tokens pro Minute (TPM) und Tokens pro Tag (TPD). Das Standardlimit für Tokens pro Tag ist Tokens pro Minute * 24 * 60. Neue AWS-Konten haben jedoch die Kontingente für Tokens pro Tag reduziert. Sie können eine Erhöhung des Kontingents beantragen, wie im folgenden Abschnitt beschrieben.

Um die Tokens pro Tageslimit Ihres Kontos einzusehen, wählen Sie Amazon Bedrock auf der Seite mit den AWS Management Console Service Quotas aus und suchen Sie nach „Model invocation max tokens per day for $ {MODEL}“.

Eine Erhöhung der Amazon Bedrock-Kontingente beantragen

Die Schritte zur Beantragung einer Kontingenterhöhung für Ihr Konto hängen vom Wert in der Spalte Anpassbar in der Tabelle mit den Kontingenten in Amazon Bedrock Service Quotas ab:

  • Wenn ein Kontingent mit Ja markiert ist, können Sie es anpassen, indem Sie die Schritte unter Anfrage einer Kontingenterhöhung im Servicekontingents-Benutzerhandbuch befolgen.

  • Für jedes Modell können Sie gemeinsam eine Erhöhung für die folgenden Kontingente beantragen:

    • Regionsübergreifende InvokeModel Tokens pro Minute für ${model}

    • Regionsübergreifende InvokeModel Anfragen pro Minute für ${model}

    • InvokeModel Tokens auf Abruf pro Minute für ${model}

    • InvokeModel On-Demand-Anfragen pro Minute für ${model}

    • Modellieren Sie die maximale Anzahl an Tokens pro Tag für ${model}

    Um eine Erhöhung für eine beliebige Kombination dieser Kontingente zu beantragen, fordern Sie eine Erhöhung der regionsübergreifenden InvokeModel Token pro Minute für das ${model} Kontingent an, indem Sie die Schritte unter Anfrage einer Kontingenterhöhung im Benutzerhandbuch für Service Quotas befolgen. Danach wird sich das Support-Team mit Ihnen in Verbindung setzen und Ihnen die Möglichkeit bieten, auch die anderen vier Kontingente zu erhöhen.

    Anmerkung

    Aufgrund der überwältigenden Nachfrage wird Kunden Vorrang eingeräumt, die Traffic generieren, der ihre bestehende Kontingentzuweisung verbraucht. Ihre Anfrage wird möglicherweise abgelehnt, wenn Sie diese Bedingung nicht erfüllen.

Token-Burndown-Rate für AnthropicClaude 4 Modelle

Inferenzquoten für Modelle mit nicht standardmäßigen Token-Burndown-Raten.

Die Inferenzquoten für das Amazon Bedrock-Modell werden in zwei Dimensionen gemessen: RPM (Anfragen pro Minute) und TPM (Token pro Minute). Kontingente können in allen Dimensionen erreicht werden, je nachdem, was zuerst eintritt.

Eine Burndown-Rate ist ein Verhältnis, das die Eingabe- und Ausgabetoken in die Nutzung des Token-Kontingents durch das Drosselungssystem umrechnet. Dieses Verhältnis stellt die Rate dar, mit der Eingabe- und Ausgabetokens auf die Token-Kontingente angerechnet werden.

Die meisten Modelle haben eine Burndown-Rate von 1 Token pro 1 Eingabe- oder 1 Ausgabetoken, mit Ausnahme von Anthropic Claude 4 Modellen. In den folgenden Tabellen finden Sie Anthropic Claude 4 Burndown-Raten. Weitere Informationen zur Verwendung von Token und zur Preisgestaltung in Amazon Bedrock finden Sie unter Amazon Bedrock Pricing.

Wir verwenden den in der API-Anfrage angegebenen max_tokens Wert, um den Output-Burdown im Verhältnis zu den Token-Kontingenten zu schätzen, wenn wir Ihre Anfrage erhalten. Nach Abschluss der Anfrage passen wir den Output-Burndown an die tatsächliche Nutzung an. Um eine vorzeitige Drosselung zu vermeiden, wählen Sie einen max_tokens Wert, der Ihren erwarteten Ausgangstoken nahe kommt.

Nicht standardmäßige Burndown-Raten für Modell-Tokens

Modell

Eingabe-Token

Ausgabetoken

Claude Opus 4

1 Token pro Eingabetoken

5 Token pro Ausgabetoken

Claude Sonnet 4

1 Token pro Eingabe-Token

5 Token pro Ausgabetoken