Optimieren der Modellinferenz für die Latenz

Anmerkung

Die Funktion „Latenzoptimierte Inferenz“ befindet sich in der Vorschauversion für Amazon Bedrock und kann sich ändern.

Die latenzoptimierte Inferenz für Basismodelle Amazon Bedrock bietet schnellere Reaktionszeiten und eine verbesserte Reaktionsfähigkeit für KI-Anwendungen. Die optimierten Versionen von Amazon Nova Pro, des Modells Claude 3.5 Haiku von Anthropic und der Modelle Llama 3.1 405B und 70B von Meta bieten eine deutlich reduzierte Latenz, ohne die Genauigkeit zu beeinträchtigen.

Für den Zugriff auf die Funktion zur Latenzoptimierung sind keine zusätzlichen Einstellungen oder Modellfeinabstimmungen erforderlich, sodass bestehende Anwendungen sofort verbessert und schnellere Reaktionszeiten erzielt werden können. Sie können den Parameter „Latenz“ auf „optimiert“ festlegen, während Sie die Laufzeit-API von Amazon Bedrock aufrufen. Wenn Sie „Standard“ als Aufrufoption auswählen, werden Ihre Anforderungen per Standardinferenz bearbeitet. Standardmäßig werden alle Anforderungen über „Standard“ weitergeleitet.


"performanceConfig" : {
    "latency" : "standard | optimized" 
}

Sobald Sie das Nutzungskontingent für die Latenzoptimierung für ein Modell erreicht haben, versuchen wir, die Anforderung mit der Standardlatenz zu bearbeiten. In solchen Fällen wird die Anforderung mit Standard-Latenzraten berechnet. Die Latenzkonfiguration für eine beantwortete Anfrage ist in der API-Antwort und in den Protokollen sichtbar. AWS CloudTrail Sie können Metriken für latenzoptimierte Anfragen auch in den Amazon CloudWatch Protokollen unter „Model-ID+Latenzoptimierung“ einsehen.

Latenzoptimierte Inferenz ist für die Modelle Llama 3.1 70B und 405B von Meta sowie für das Modelle Claude 3.5 Haiku von Anthropic in den Regionen USA Ost (Ohio) und USA West (Oregon) per regionsübergreifender Inferenz verfügbar.

Die latenzoptimierte Inferenz ist für Amazon Nova Pro in den Regionen USA Ost (Nord-Virginia), USA Ost (Ohio) und USA West (Oregon) über regionsübergreifende Inferenz verfügbar.

Weitere Informationen zur Preisgestaltung finden Sie auf der Seite mit den Preisen.

Anmerkung

Die latenzoptimierte Inferenz für Llama 3.1 405B unterstützt derzeit Anforderungen mit einer Gesamtzahl von Eingabe- und Ausgabetoken von bis zu 11 000. Bei Anforderungen mit einer größeren Token-Zahl greifen wir auf den Standardmodus zurück.

Die folgende Tabelle zeigt die Inferenzprofile, die die Latenzoptimierung unterstützen:

Anbieter	Modell	Modell-ID	Unterstützung für regionsübergreifende Inferenzprofile
Amazon	Nova Pro	Amazon. nova-pro-v1:0	us-east-1 us-east-2
Anthropic	Claude 3.5 Haiku	anthropic.claude-3-5-haiku-20241022-v1:0	us-east-2 us-west-2
Meta	Llama 3.1 405B Instruct	meta.llama3-1-405 1:0 b-instruct-v	us-east-2
Meta	Llama 3.1 70B Instruct	meta.lama3-1-70 1:0 b-instruct-v	us-east-2 us-west-2

Weitere Informationen zu Inferenzprofilen finden Sie unter. Unterstützte Regionen und Modelle für Inferenzprofile

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Argumentation mit Folgerungen

Inferenz mit OpenAI APIs