Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Kontingente für Amazon Bedrock
Ihr AWS-Konto hat Standardkontingente, früher als Limits bezeichnet, für Amazon Bedrock. Gehen Sie wie folgt vor, um Servicekontingente für Amazon Bedrock anzuzeigen:
-
Folgen Sie den Schritten unter Servicekontingente anzeigen und wählen Sie Amazon Bedrock als Service aus.
-
Weitere Informationen zu den Amazon Bedrock-Servicekontingenten finden Sie in der Allgemeine AWS-Referenz.
Um die Leistung des Service aufrechtzuerhalten und eine angemessene Nutzung von Amazon Bedrock sicherzustellen, können die einem Konto zugewiesenen Standardkontingente je nach regionalen Faktoren, Zahlungsverlauf, betrügerischer Nutzung und and/or Genehmigung einer Anfrage zur Erhöhung des Kontingents aktualisiert werden.
Anmerkung
Um die Leistung aufrechtzuerhalten und eine angemessene Nutzung von Amazon Bedrock sicherzustellen, AWS beschränken Sie Ihre Nutzung entsprechend den Kontingenten Ihres Kontos für Anfragen pro Minute (RPM), Tokens pro Minute (TPM) und Tokens pro Tag (TPD). Das Standardlimit für Tokens pro Tag ist Tokens pro Minute * 24 * 60. Neue AWS-Konten haben jedoch die Kontingente für Tokens pro Tag reduziert. Sie können eine Erhöhung des Kontingents beantragen, wie im folgenden Abschnitt beschrieben.
Um die Tokens pro Tageslimit Ihres Kontos einzusehen, wählen Sie Amazon Bedrock auf der Seite mit den AWS Management Console Service Quotas
Themen
Eine Erhöhung der Amazon Bedrock-Kontingente beantragen
Die Schritte zur Beantragung einer Kontingenterhöhung für Ihr Konto hängen vom Wert in der Spalte Anpassbar in der Tabelle mit den Kontingenten in Amazon Bedrock Service Quotas ab:
-
Wenn ein Kontingent mit Ja markiert ist, können Sie es anpassen, indem Sie die Schritte unter Anfrage einer Kontingenterhöhung im Servicekontingents-Benutzerhandbuch befolgen.
-
Für jedes Modell können Sie gemeinsam eine Erhöhung für die folgenden Kontingente beantragen:
-
Regionsübergreifende InvokeModel Tokens pro Minute für
${model}
-
Regionsübergreifende InvokeModel Anfragen pro Minute für
${model}
-
InvokeModel Tokens auf Abruf pro Minute für
${model}
-
InvokeModel On-Demand-Anfragen pro Minute für
${model}
-
Modellieren Sie die maximale Anzahl an Tokens pro Tag für
${model}
Um eine Erhöhung für eine beliebige Kombination dieser Kontingente zu beantragen, fordern Sie eine Erhöhung der regionsübergreifenden InvokeModel Token pro Minute für das
${model}
Kontingent an, indem Sie die Schritte unter Anfrage einer Kontingenterhöhung im Benutzerhandbuch für Service Quotas befolgen. Danach wird sich das Support-Team mit Ihnen in Verbindung setzen und Ihnen die Möglichkeit bieten, auch die anderen vier Kontingente zu erhöhen.Anmerkung
Aufgrund der überwältigenden Nachfrage wird Kunden Vorrang eingeräumt, die Traffic generieren, der ihre bestehende Kontingentzuweisung verbraucht. Ihre Anfrage wird möglicherweise abgelehnt, wenn Sie diese Bedingung nicht erfüllen.
-
Token-Burndown-Rate für AnthropicClaude 4 Modelle
Inferenzquoten für Modelle mit nicht standardmäßigen Token-Burndown-Raten.
Die Inferenzquoten für das Amazon Bedrock-Modell werden in zwei Dimensionen gemessen: RPM (Anfragen pro Minute) und TPM (Token pro Minute). Kontingente können in allen Dimensionen erreicht werden, je nachdem, was zuerst eintritt.
Eine Burndown-Rate ist ein Verhältnis, das die Eingabe- und Ausgabetoken in die Nutzung des Token-Kontingents durch das Drosselungssystem umrechnet. Dieses Verhältnis stellt die Rate dar, mit der Eingabe- und Ausgabetokens auf die Token-Kontingente angerechnet werden.
Die meisten Modelle haben eine Burndown-Rate von 1 Token pro 1 Eingabe- oder 1 Ausgabetoken, mit Ausnahme von Anthropic Claude 4 Modellen. In den folgenden Tabellen finden Sie Anthropic Claude 4 Burndown-Raten. Weitere Informationen zur Verwendung von Token und zur Preisgestaltung in Amazon Bedrock finden Sie unter Amazon Bedrock
Wir verwenden den in der API-Anfrage angegebenen max_tokens
Wert, um den Output-Burdown im Verhältnis zu den Token-Kontingenten zu schätzen, wenn wir Ihre Anfrage erhalten. Nach Abschluss der Anfrage passen wir den Output-Burndown an die tatsächliche Nutzung an. Um eine vorzeitige Drosselung zu vermeiden, wählen Sie einen max_tokens
Wert, der Ihren erwarteten Ausgangstoken nahe kommt.
Modell |
Eingabe-Token |
Ausgabetoken |
---|---|---|
Claude Opus 4 |
1 Token pro Eingabetoken |
5 Token pro Ausgabetoken |
Claude Sonnet 4 |
1 Token pro Eingabe-Token |
5 Token pro Ausgabetoken |