Bevor Sie beginnen Erstellen der Leistungsbewertung Referenz zu den Metriken

Bewerten der Leistung optimierter Modelle

Nachdem Sie einen Optimierungsjob ausgeführt haben, um ein optimiertes Modell zu erstellen, können Sie eine Bewertung der Modellleistung durchführen. Diese Bewertung liefert Metriken für Latenz, Durchsatz und Preis. Ermitteln Sie anhand dieser Metriken, ob das optimierte Modell die Anforderungen Ihres Anwendungsfalls erfüllt oder ob weitere Optimierungen erforderlich sind.

Sie können Leistungsbewertungen nur mit Studio durchführen. Diese Funktion wird nicht über die Amazon SageMaker AI-API oder das Python-SDK bereitgestellt.

Bevor Sie beginnen

Bevor Sie eine Leistungsbewertung erstellen können, müssen Sie zunächst ein Modell optimieren, indem Sie einen Job zur Inferenzoptimierung erstellen. In Studio können Sie nur die Modelle bewerten, die Sie mit diesen Jobs erstellen.

Erstellen der Leistungsbewertung

Führen Sie die folgenden Schritte in Studio aus, um eine Leistungsbewertung für ein optimiertes Modell zu erstellen.

Wählen Sie im Studio-Navigationsmenü unter Jobs die Option Inferenzoptimierung aus.
Wählen Sie den Namen des Jobs aus, der das optimierte Modell erstellt hat, das Sie bewerten möchten.
Wählen Sie auf der Seite mit den Jobdetails die Option Leistung bewerten aus.
Auf der Seite „Leistung bewerten“ müssen Sie bei einigen JumpStart Modellen eine Endbenutzer-Lizenzvereinbarung (EULA) unterzeichnen, bevor Sie fortfahren können. Falls Sie dazu aufgefordert werden, lesen Sie die Lizenzbedingungen im Abschnitt Lizenzvereinbarung. Wenn die Bedingungen für Ihren Anwendungsfall akzeptabel sind, aktivieren Sie das Kontrollkästchen Ich akzeptiere die EULA und habe die allgemeinen Geschäftsbedingungen gelesen.
Unter Modell als Tokenizer auswählen können Sie entweder die Standardeinstellung übernehmen oder ein bestimmtes Modell als Tokenizer für Ihre Bewertung auswählen.
Wählen Sie unter Eingabedatensätze aus, ob Sie:
- Verwenden Sie die Standard-Beispieldatensätze von AI. SageMaker
- einen S3-URI angeben, die auf Ihre eigenen Beispieldatensätze verweist.
Geben Sie unter S3-URI für Leistungsergebnisse einen URI an, der auf den Speicherort in Amazon S3 verweist, an dem Sie die Bewertungsergebnisse speichern möchten.
Wählen Sie Bewerten aus.

Studio zeigt die Seite mit den Leistungsbewertungen an, auf der Ihr Bewertungsjob in der Tabelle aufgeführt ist. In der Spalte Status wird der Status Ihrer Bewertung angezeigt.
Wenn der Status Abgeschlossen lautet, wählen Sie den Namen des Jobs aus, um die Bewertungsergebnisse anzuzeigen.

Auf der Seite mit den Bewertungsdetails werden Tabellen mit Leistungsmetriken für Latenz, Durchsatz und Preis angezeigt. Weitere Informationen zu den jeweiligen Metriken finden Sie in der Referenz zu den Bewertungsmetriken der Inferenzleistung.

Referenz zu den Bewertungsmetriken der Inferenzleistung

Nachdem Sie die Leistung eines optimierten Modells erfolgreich bewertet haben, werden auf der Seite mit den Bewertungsdetails in Studio die folgenden Metriken angezeigt.

Latenzmetriken

Der Abschnitt Latenz zeigt die folgenden Metriken an.

Nebenläufigkeit: Die Anzahl der gleichzeitigen Benutzer, die bei der Bewertung simuliert wurden, um den Endpunkt gleichzeitig aufzurufen.
Zeit bis zum ersten Token (ms): Die Zeit, die zwischen dem Senden der Anfrage und dem Empfang des ersten Tokens einer Streaming-Antwort vergangen ist.
Latenz zwischen den Token (ms): Die Zeit bis zur Generierung eines Ausgabetokens für jede Anforderung.
Client-Latenz (ms): Die Latenz vom Senden der Anforderung bis zum Erhalt der gesamten Antwort.
Eingabe tokens/sec (Anzahl): Die Gesamtzahl der generierten Eingabetoken für alle Anforderungen geteilt durch die Gesamtdauer in Sekunden für die Gleichzeitigkeit.
Ausgabe tokens/sec (Anzahl): Die Gesamtzahl der generierten Ausgabetoken für alle Anforderungen geteilt durch die Gesamtdauer in Sekunden für die Gleichzeitigkeit.
Client-Aufrufe (Anzahl): Die Gesamtzahl der Inferenzanforderungen, die von allen Benutzern gleichzeitig an den Endpunkt gesendet wurden.
Client-Aufruffehler (Anzahl): Die Gesamtzahl der Inferenzanforderungen, die von allen Benutzern gleichzeitig an den Endpunkt gesendet wurden und zu einem Aufruffehler geführt haben.
Tokenizer fehlgeschlagen (Anzahl): Die Gesamtzahl der Inferenzanforderungen, bei denen der Tokenizer die Anforderung oder die Antwort nicht analysieren konnte.
Leere Inferenzantwort (Anzahl): Die Gesamtzahl der Inferenzanfragen, die dazu geführt haben, dass keine Ausgabetoken ausgegeben wurden oder der Tokenizer die Antwort nicht analysieren konnte.

Durchsatzmetriken

Im Abschnitt Durchsatz werden die folgenden Metriken angezeigt.

Nebenläufigkeit: Die Anzahl der gleichzeitigen Benutzer, die bei der Bewertung simuliert wurden, um den Endpunkt gleichzeitig aufzurufen.
Eingabe tokens/sec/req (Anzahl): Die Gesamtzahl der generierten Eingabetoken pro Sekunde und Anforderung.
Ausgabe tokens/sec/req (Anzahl): Die Gesamtzahl der generierten Ausgabetoken pro Sekunde und Anforderung.
Eingabetoken (Anzahl): Die Gesamtzahl der generierten Eingabetoken pro Anforderung.
Ausgabetoken (Anzahl): Die Gesamtzahl der generierten Ausgabetoken pro Anforderung.

Preismetriken

Im Abschnitt Preis werden die folgenden Metriken angezeigt.

Nebenläufigkeit: Die Anzahl der gleichzeitigen Benutzer, die bei der Bewertung simuliert wurden, um den Endpunkt gleichzeitig aufzurufen.
Preis pro Million Eingabetoken: Kosten für die Verarbeitung von 1 Mio. Eingabetoken.
Preis pro Million Ausgabetoken: Kosten für die Generierung von 1 Mio. Ausgabetoken.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Anzeigen der Ergebnisse von Optimierungsjobs

Referenz zu unterstützten Modellen