Optimieren der Modellinferenz für die Latenz - Amazon Bedrock

Optimieren der Modellinferenz für die Latenz

Anmerkung

Bei dem Feature für latenzoptimierte Inferenz handelt es sich um eine Vorversion von Amazon Bedrock, die Änderungen unterliegt.

Die latenzoptimierte Inferenz für Basismodelle in Amazon Bedrock bietet schnellere Reaktionszeiten und eine verbesserte Reaktionsfähigkeit für KI-Anwendungen. Die optimierten Versionen von Amazon Nova Pro, des Modells Claude 3.5 Haiku von Anthropic und der Modelle Llama 3.1 405B und 70B von Meta bieten eine deutlich reduzierte Latenz, ohne die Genauigkeit zu beeinträchtigen.

Für den Zugriff auf die Funktion zur Latenzoptimierung sind keine zusätzlichen Einstellungen oder Modellfeinabstimmungen erforderlich, sodass bestehende Anwendungen sofort verbessert und schnellere Reaktionszeiten erzielt werden können. Sie können den Parameter „Latenz“ auf „optimiert“ festlegen, während Sie die Laufzeit-API von Amazon Bedrock aufrufen. Wenn Sie „Standard“ als Aufrufoption auswählen, werden Ihre Anforderungen per Standardinferenz bearbeitet. Standardmäßig werden alle Anforderungen über „Standard“ weitergeleitet.

"performanceConfig" : { "latency" : "standard | optimized" }

Sobald Sie das Nutzungskontingent für die Latenzoptimierung für ein Modell erreicht haben, versuchen wir, die Anforderung mit der Standardlatenz zu bearbeiten. In solchen Fällen wird die Anforderung mit Standard-Latenzraten berechnet. Die Latenzkonfiguration für eine bearbeitete Anforderung ist in der API-Antwort und in den Protokollen von AWS CloudTrail ersichtlich. Sie können Metriken für latenzoptimierte Anforderungen auch in den Protokollen von Amazon CloudWatch unter „Modell-ID+Latenzoptimierung“ einsehen.

Latenzoptimierte Inferenz ist für die Modelle Llama 3.1 70B und 405B von Meta sowie für das Modelle Claude 3.5 Haiku von Anthropic in den Regionen USA Ost (Ohio) und USA West (Oregon) per regionsübergreifender Inferenz verfügbar.

Die latenzoptimierte Inferenz ist für Amazon Nova Pro in den Regionen USA Ost (Nord-Virginia), USA Ost (Ohio) und USA West (Oregon) über regionsübergreifende Inferenz verfügbar.

Weitere Informationen zur Preisgestaltung finden Sie auf der Seite mit den Preisen.

Anmerkung

Die latenzoptimierte Inferenz für Llama 3.1 405B unterstützt derzeit Anforderungen mit einer Gesamtzahl von Eingabe- und Ausgabetoken von bis zu 11 000. Bei Anforderungen mit einer größeren Token-Zahl greifen wir auf den Standardmodus zurück.

Anbieter Modell Regionen, die das Inferenzprofil unterstützen
Amazon Nova Pro

us-east-1

us-east-2

Anthropic Claude 3.5 Haiku

us-east-2

us-west-2

Meta Llama 3.1 405B Instruct

us-east-2

Meta Llama 3.1 70B Instruct

us-east-2

us-west-2