Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Bewerten der Leistung optimierter Modelle
Nachdem Sie einen Optimierungsjob ausgeführt haben, um ein optimiertes Modell zu erstellen, können Sie eine Bewertung der Modellleistung durchführen. Diese Bewertung liefert Metriken für Latenz, Durchsatz und Preis. Ermitteln Sie anhand dieser Metriken, ob das optimierte Modell die Anforderungen Ihres Anwendungsfalls erfüllt oder ob weitere Optimierungen erforderlich sind.
Sie können Leistungsbewertungen nur mit Studio durchführen. Diese Funktion wird nicht über die API von Amazon SageMaker AI oder das Python SDK bereitgestellt.
Bevor Sie beginnen
Bevor Sie eine Leistungsbewertung erstellen können, müssen Sie zunächst ein Modell optimieren, indem Sie einen Job zur Inferenzoptimierung erstellen. In Studio können Sie nur die Modelle bewerten, die Sie mit diesen Jobs erstellen.
Erstellen der Leistungsbewertung
Führen Sie die folgenden Schritte in Studio aus, um eine Leistungsbewertung für ein optimiertes Modell zu erstellen.
-
Wählen Sie im Studio-Navigationsmenü unter Jobs die Option Inferenzoptimierung aus.
-
Wählen Sie den Namen des Jobs aus, der das optimierte Modell erstellt hat, das Sie bewerten möchten.
-
Wählen Sie auf der Seite mit den Jobdetails die Option Leistung bewerten aus.
-
Auf der Seite Leistung bewerten müssen Sie bei einigen JumpStart-Modellen eine Endbenutzer-Lizenzvereinbarung (EULA) unterzeichnen, bevor Sie fortfahren können. Falls Sie dazu aufgefordert werden, lesen Sie die Lizenzbedingungen im Abschnitt Lizenzvereinbarung. Wenn die Bedingungen für Ihren Anwendungsfall akzeptabel sind, aktivieren Sie das Kontrollkästchen Ich akzeptiere die EULA und habe die allgemeinen Geschäftsbedingungen gelesen.
-
Unter Modell als Tokenizer auswählen können Sie entweder die Standardeinstellung übernehmen oder ein bestimmtes Modell als Tokenizer für Ihre Bewertung auswählen.
-
Wählen Sie unter Eingabedatensätze aus, ob Sie:
-
die Standard-Beispieldatensätze von SageMaker AI verwenden;
-
einen S3-URI angeben, die auf Ihre eigenen Beispieldatensätze verweist.
-
-
Geben Sie unter S3-URI für Leistungsergebnisse einen URI an, der auf den Speicherort in Amazon S3 verweist, an dem Sie die Bewertungsergebnisse speichern möchten.
-
Wählen Sie Bewerten aus.
Studio zeigt die Seite mit den Leistungsbewertungen an, auf der Ihr Bewertungsjob in der Tabelle aufgeführt ist. In der Spalte Status wird der Status Ihrer Bewertung angezeigt.
-
Wenn der Status Abgeschlossen lautet, wählen Sie den Namen des Jobs aus, um die Bewertungsergebnisse anzuzeigen.
Auf der Seite mit den Bewertungsdetails werden Tabellen mit Leistungsmetriken für Latenz, Durchsatz und Preis angezeigt. Weitere Informationen zu den jeweiligen Metriken finden Sie in der Referenz zu den Bewertungsmetriken der Inferenzleistung.
Referenz zu den Bewertungsmetriken der Inferenzleistung
Nachdem Sie die Leistung eines optimierten Modells erfolgreich bewertet haben, werden auf der Seite mit den Bewertungsdetails in Studio die folgenden Metriken angezeigt.
Latenzmetriken
Der Abschnitt Latenz zeigt die folgenden Metriken an.
- Nebenläufigkeit
-
Die Anzahl der gleichzeitigen Benutzer, die bei der Bewertung simuliert wurden, um den Endpunkt gleichzeitig aufzurufen.
- Zeit bis zum ersten Token (ms)
-
Die Zeit, die zwischen dem Senden der Anfrage und dem Empfang des ersten Tokens einer Streaming-Antwort vergangen ist.
- Latenz zwischen den Token (ms)
-
Die Zeit bis zur Generierung eines Ausgabetokens für jede Anforderung.
- Client-Latenz (ms)
-
Die Latenz vom Senden der Anforderung bis zum Erhalt der gesamten Antwort.
- Eingabetoken/Sekunde (Anzahl)
-
Die Gesamtzahl der generierten Eingabetoken für alle Anforderungen geteilt durch die Gesamtdauer in Sekunden für die Gleichzeitigkeit.
- Ausgabetoken/Sekunde (Anzahl)
-
Die Gesamtzahl der generierten Ausgabetoken für alle Anforderungen geteilt durch die Gesamtdauer in Sekunden für die Gleichzeitigkeit.
- Client-Aufrufe (Anzahl)
-
Die Gesamtzahl der Inferenzanforderungen, die von allen Benutzern gleichzeitig an den Endpunkt gesendet wurden.
- Client-Aufruffehler (Anzahl)
-
Die Gesamtzahl der Inferenzanforderungen, die von allen Benutzern gleichzeitig an den Endpunkt gesendet wurden und zu einem Aufruffehler geführt haben.
- Tokenizer fehlgeschlagen (Anzahl)
-
Die Gesamtzahl der Inferenzanforderungen, bei denen der Tokenizer die Anforderung oder die Antwort nicht analysieren konnte.
- Leere Inferenzantwort (Anzahl)
-
Die Gesamtzahl der Inferenzanfragen, die dazu geführt haben, dass keine Ausgabetoken ausgegeben wurden oder der Tokenizer die Antwort nicht analysieren konnte.
Durchsatzmetriken
Im Abschnitt Durchsatz werden die folgenden Metriken angezeigt.
- Nebenläufigkeit
-
Die Anzahl der gleichzeitigen Benutzer, die bei der Bewertung simuliert wurden, um den Endpunkt gleichzeitig aufzurufen.
- Eingabetoken/Sek/Anf (Anzahl)
-
Die Gesamtzahl der generierten Eingabetoken pro Sekunde und Anforderung.
- Ausgabetoken/Sek/Anf (Anzahl)
-
Die Gesamtzahl der generierten Ausgabetoken pro Sekunde und Anforderung.
- Eingabetoken (Anzahl)
-
Die Gesamtzahl der generierten Eingabetoken pro Anforderung.
- Ausgabetoken (Anzahl)
-
Die Gesamtzahl der generierten Ausgabetoken pro Anforderung.
Preismetriken
Im Abschnitt Preis werden die folgenden Metriken angezeigt.
- Nebenläufigkeit
-
Die Anzahl der gleichzeitigen Benutzer, die bei der Bewertung simuliert wurden, um den Endpunkt gleichzeitig aufzurufen.
- Preis pro Million Eingabetoken
-
Kosten für die Verarbeitung von 1 Mio. Eingabetoken.
- Preis pro Million Ausgabetoken
-
Kosten für die Generierung von 1 Mio. Ausgabetoken.