Verarbeiten mehrerer Prompts mit der Batch-Inferenz

Mit der Batch-Inferenz können Sie mehrere Prompts übermitteln und Antworten asynchron generieren. Sie können Ihre Eingabedaten entweder mit dem InvokeModel oder Converse dem API-Format formatieren. Die Batch-Inferenz hilft Ihnen, eine große Anzahl von Anforderungen effizient zu verarbeiten, indem nur eine einzige Anforderung gesendet und die Antworten in einem Amazon-S3-Bucket generiert werden. Nachdem Sie Modelleingaben in von Ihnen erstellten Dateien definiert haben, laden Sie die Dateien in einen S3-Bucket hoch. Anschließend übermitteln Sie eine Batch-Inferenzanforderung und geben den S3-Bucket an. Nachdem der Auftrag abgeschlossen ist, können Sie die Ausgabedateien von S3 abrufen. Sie können Batch-Inferenz verwenden, um die Leistung der Modellinferenz bei großen Datensätzen zu verbessern.

Anmerkung

Die Batch-Inferenz wird für bereitgestellte Modelle nicht unterstützt.

Allgemeine Informationen zur Batch-Inferenz finden Sie in den folgenden Ressourcen:

Die Preise für die Batch-Inferenz finden Sie unter Amazon Bedrock – Preise.
Informationen zu den Batch-Inferenz-Kontingenten finden Sie unter Endpunkte und Kontingente von Amazon Bedrock in der Allgemeine AWS-Referenz
Informationen dazu, wie Sie Benachrichtigungen erhalten, wenn Batch-Inferenzjobs abgeschlossen sind oder ihren Status ändern, anstatt sie abzufragen, finden Sie unter. Überwachen Sie Änderungen des Jobstatus von Amazon Bedrock mithilfe von Amazon EventBridge

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Tarife Reserviert, Standard, Priority und Flex

Unterstützte Regionen und Modelle