Optimieren der Modellinferenz für die Latenz - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Optimieren der Modellinferenz für die Latenz

Anmerkung

Die Funktion „Latenzoptimierte Inferenz“ befindet sich in der Vorschauversion für Amazon Bedrock und kann sich ändern.

Die latenzoptimierte Inferenz für Basismodelle Amazon Bedrock bietet schnellere Reaktionszeiten und eine verbesserte Reaktionsfähigkeit für KI-Anwendungen. Die optimierten Versionen von Amazon Nova Pro, des Modells Claude 3.5 Haiku von Anthropic und der Modelle Llama 3.1 405B und 70B von Meta bieten eine deutlich reduzierte Latenz, ohne die Genauigkeit zu beeinträchtigen.

Für den Zugriff auf die Funktion zur Latenzoptimierung sind keine zusätzlichen Einstellungen oder Modellfeinabstimmungen erforderlich, sodass bestehende Anwendungen sofort verbessert und schnellere Reaktionszeiten erzielt werden können. Sie können den Parameter „Latenz“ auf „optimiert“ festlegen, während Sie die Laufzeit-API von Amazon Bedrock aufrufen. Wenn Sie „Standard“ als Aufrufoption auswählen, werden Ihre Anforderungen per Standardinferenz bearbeitet. Standardmäßig werden alle Anforderungen über „Standard“ weitergeleitet.

"performanceConfig" : { "latency" : "standard | optimized" }

Sobald Sie das Nutzungskontingent für die Latenzoptimierung für ein Modell erreicht haben, versuchen wir, die Anforderung mit der Standardlatenz zu bearbeiten. In solchen Fällen wird die Anforderung mit Standard-Latenzraten berechnet. Die Latenzkonfiguration für eine beantwortete Anfrage ist in der API-Antwort und in den Protokollen sichtbar. AWS CloudTrail Sie können Metriken für latenzoptimierte Anfragen auch in den Amazon CloudWatch Protokollen unter „Model-ID+Latenzoptimierung“ einsehen.

Latenzoptimierte Inferenz ist für die Modelle Llama 3.1 70B und 405B von Meta sowie für das Modelle Claude 3.5 Haiku von Anthropic in den Regionen USA Ost (Ohio) und USA West (Oregon) per regionsübergreifender Inferenz verfügbar.

Die latenzoptimierte Inferenz ist für Amazon Nova Pro in den Regionen USA Ost (Nord-Virginia), USA Ost (Ohio) und USA West (Oregon) über regionsübergreifende Inferenz verfügbar.

Weitere Informationen zur Preisgestaltung finden Sie auf der Seite mit den Preisen.

Anmerkung

Die latenzoptimierte Inferenz für Llama 3.1 405B unterstützt derzeit Anforderungen mit einer Gesamtzahl von Eingabe- und Ausgabetoken von bis zu 11 000. Bei Anforderungen mit einer größeren Token-Zahl greifen wir auf den Standardmodus zurück.

Die folgende Tabelle zeigt die Inferenzprofile, die die Latenzoptimierung unterstützen:

Anbieter Modell Modell-ID Unterstützung für regionsübergreifende Inferenzprofile
Amazon Nova Pro Amazon. nova-pro-v1:0

us-east-1

us-east-2

Anthropic Claude 3.5 Haiku anthropic.claude-3-5-haiku-20241022-v1:0

us-east-2

us-west-2

Meta Llama 3.1 405B Instruct meta.llama3-1-405 1:0 b-instruct-v

us-east-2

Meta Llama 3.1 70B Instruct meta.lama3-1-70 1:0 b-instruct-v

us-east-2

us-west-2

Weitere Informationen zu Inferenzprofilen finden Sie unter. Unterstützte Regionen und Modelle für Inferenzprofile