Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Erstellen eines Auftrags zur Modellbewertung mit menschlichen Mitarbeitern
Wichtig
Benutzerdefinierte IAM-Richtlinien, die es Amazon SageMaker Studio oder Amazon SageMaker Studio Classic ermöglichen, SageMaker Amazon-Ressourcen zu erstellen, müssen auch Berechtigungen zum Hinzufügen von Tags zu diesen Ressourcen gewähren. Die Berechtigung zum Hinzufügen von Tags zu Ressourcen ist erforderlich, da Studio und Studio Classic automatisch alle von ihnen erstellten Ressourcen taggen. Wenn eine IAM-Richtlinie Studio und Studio Classic das Erstellen von Ressourcen, aber kein Tagging erlaubt, können "AccessDenied" Fehler beim Versuch, Ressourcen zu erstellen, auftreten. Weitere Informationen finden Sie unter Erteilen Sie Berechtigungen für das Taggen von SageMaker KI-Ressourcen.
AWSverwaltete Richtlinien für Amazon SageMaker AIdie Berechtigungen zum Erstellen von SageMaker Ressourcen gewähren, beinhalten bereits Berechtigungen zum Hinzufügen von Tags beim Erstellen dieser Ressourcen.
Um einen Auftrag zur Modellbewertung zu erstellen, bei dem Mitarbeiter eingesetzt werden, müssen Sie Ihre Umgebung so einrichten, dass sie über die richtigen Berechtigungen verfügt. Anschließend können Sie den Assistenten für Modellevaluierungsjobs in Studio verwenden, um die Modelle auszuwählen, die Sie verwenden möchten, und dann die Parameter und die Belegschaft definieren, die Sie für den Modellevaluierungsjob verwenden möchten.
Wenn der Auftrag abgeschlossen ist, können Sie sich einen Bericht ansehen, um zu erfahren, wie Ihre Belegschaft die von Ihnen ausgewählten Modelle bewertet hat. Die Ergebnisse werden auch in Amazon S3 als jsonlines Ausgabedatei gespeichert.
Bei Modellevaluierungsaufgaben, bei denen menschliche Mitarbeiter eingesetzt werden, haben Sie die Möglichkeit, Inferenzdaten aus Modellen, die außerhalb von KI gehostet werden, und von Modellen, die außerhalb von SageMaker KI gehostet werden, heranzuziehen. AWS Weitere Informationen hierzu finden Sie unter Verwenden Sie Ihre eigenen Inferenzdaten bei Aufträgen zur Modellbewertung, bei denen Mitarbeiter eingesetzt werden.
Wenn Ihre Jobs abgeschlossen sind, werden die Ergebnisse in dem Amazon S3 Bucket gespeichert, der bei der Erstellung des Jobs angegeben wurde. Informationen zur Interpretation Ihrer Ergebnisse finden Sie unterVerstehen Sie die Ergebnisse Ihres Auftrags zur Modellbewertung.
Voraussetzungen
Um eine Modellevaluierung in der Amazon SageMaker Studio-Benutzeroberfläche durchzuführen, müssen Ihre AWS Identity and Access Management (IAM-) Rolle und alle Eingabedatensätze über die richtigen Berechtigungen verfügen. Wenn Sie keine SageMaker AI-Domain- oder IAM-Rolle haben, folgen Sie den Schritten unter. Leitfaden für die Einrichtung von Amazon SageMaker AI
Einrichten Ihrer Berechtigungen
Im folgenden Abschnitt wird gezeigt, wie Sie einen Amazon-S3-Bucket erstellen und die richtigen CORS-Berechtigungen (Cross-Origin Resource Sharing) angeben.
Um einen Amazon S3 S3-Bucket zu erstellen und die CORS-Berechtigungen anzugeben
Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/
. -
Geben Sie im Navigationsbereich
S3in die Suchleiste oben auf der Seite ein. -
Wählen Sie S3 unter Services aus.
-
Wählen Sie im Navigationsbereich die Option Buckets aus.
-
Wählen Sie im Abschnitt Allgemeine Buckets unter Name den Namen des S3-Buckets aus, den Sie zum Speichern Ihrer Modelleingabe und -ausgabe in der Konsole verwenden möchten. Führen Sie die folgenden Schritte aus, wenn Sie noch keinen S3-Bucket besitzen.
-
Wählen Sie Bucket erstellen aus, um eine neue Seite „Bucket erstellen“ zu öffnen.
-
Wählen Sie im Abschnitt Allgemeine Konfiguration unter AWSRegion die AWS Region aus, in der sich Ihr Foundation-Modell befindet.
-
Benennen Sie Ihren S3-Bucket im Eingabefeld unter Bucket-Name.
-
Akzeptieren Sie alle Standardoptionen.
-
Wählen Sie Bucket erstellen aus.
-
Wählen Sie im Abschnitt Allgemeine Buckets unter Name den Namen des S3-Buckets aus, den Sie erstellt haben.
-
-
Wählen Sie die Registerkarte Berechtigungen.
-
Scrollen Sie am unteren Rand des Fensters zum Abschnitt Cross-Origin Resource Sharing (CORS). Wählen Sie Bearbeiten aus.
-
Im Folgenden finden Sie die mindestens erforderliche CORS-Richtlinie, die Sie Ihrem Amazon S3 S3-Bucket hinzufügen müssen. Kopieren Sie den folgenden Text und fügen Sie ihn in das Eingabefeld ein.
[ { "AllowedHeaders": ["*"], "AllowedMethods": [ "GET", "HEAD", "PUT" ], "AllowedOrigins": [ "*" ], "ExposeHeaders": [ "Access-Control-Allow-Origin" ], "MaxAgeSeconds": 3000 } ] -
Wählen Sie Änderungen speichern aus.
So fügen Sie Berechtigungen zu Ihrer IAM-Richtlinie hinzu
Möglicherweise möchten Sie die Ebene der Berechtigungen berücksichtigen, die Ihrer IAM-Rolle zugewiesen werden sollen.
-
Sie können eine benutzerdefinierte IAM-Richtlinie erstellen, die die für diesen Dienst erforderlichen Mindestberechtigungen zulässt.
-
Sie können die vorhandenen
AmazonSageMakerFullAccessAmazonS3FullAccessIAM-Richtlinien an Ihre bestehende IAM-Rolle anfügen, was großzügiger ist. Weitere Informationen zu derAmazonSageMakerFullAccessRichtlinie finden Sie unter AmazonSageMakerFullAccess.
Wenn Sie die vorhandenen Richtlinien an Ihre IAM-Rolle anfügen möchten, können Sie die hier aufgeführten Anweisungen überspringen und weiterhin den Anweisungen unter So fügen Sie Ihrer IAM-Rolle Berechtigungen hinzu folgen.
Mit den folgenden Anweisungen wird eine benutzerdefinierte IAM-Richtlinie erstellt, die auf diesen Service mit Mindestberechtigungen zugeschnitten ist.
Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/
. -
Geben Sie in die Suchleiste oben auf der Seite
IAMein. -
Wählen Sie unter Dienste die Option Identity and Access Management (IAM) aus.
-
Wählen Sie im Navigationsbereich Richtlinien aus.
-
Wählen Sie Richtlinie erstellen aus. Wählen Sie im Abschnitt Richtlinien-Editor JSON aus.
-
Stellen Sie sicher, dass die folgenden Berechtigungen im Richtlinien-Editor angezeigt werden. Sie können auch Folgendes kopieren und in den Richtlinien-Editor einfügen.
-
Wählen Sie Weiter aus.
-
Geben Sie im Abschnitt Richtliniendetails unter Richtlinienname einen Richtliniennamen ein. Sie können auch eine optionale Beschreibung eingeben. Sie suchen nach diesem Richtliniennamen, wenn Sie ihn einer Rolle zuweisen.
-
Wählen Sie Richtlinie erstellen aus.
So fügen Sie Berechtigungen zu Ihrer IAM-Rolle hinzu
Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/
. -
Geben Sie in die Suchleiste oben auf der Seite
IAMein. -
Wählen Sie unter Dienste die Option Identity and Access Management (IAM) aus.
-
Wählen Sie im Navigationsbereich Roles (Rollen) aus.
-
Wenn Sie eine neue Rolle erstellen:
-
Wählen Sie Rolle erstellen aus.
-
Wählen Sie im Schritt Vertrauenswürdige Entität auswählen unter Typ der vertrauenswürdigen Entität die Option Benutzerdefinierte Vertrauensrichtlinie aus.
-
Wählen Sie im Editor für benutzerdefinierte Vertrauensrichtlinien neben Principal hinzufügen die Option Hinzufügen aus.
-
Wählen Sie im Popupfeld Prinzipal hinzufügen unter Prinzipaltyp die Option AWSDienste aus der Dropdownliste mit Optionen aus.
-
Ersetzen Sie unter ARN
{ServiceName}durchsagemaker. -
Wählen Sie Prinzipal hinzufügen aus.
-
Wählen Sie Weiter aus.
-
(Optional) Wählen Sie unter Berechtigungsrichtlinien die Richtlinien aus, die Sie Ihrer Rolle hinzufügen möchten.
-
(Optional) Wählen Sie unter Berechtigungsgrenze festlegen — optional Ihre Einstellung für die Berechtigungsgrenze aus.
-
Wählen Sie Weiter aus.
-
Geben Sie im Schritt Name, Überprüfung und Erstellung unter Rollendetails Ihren Rollennamen und Ihre Beschreibung ein.
-
(Optional) Unter Tags hinzufügen — optional können Sie Tags hinzufügen, indem Sie Neues Tag hinzufügen auswählen und ein optionales Paar aus Schlüssel und Wert eingeben.
-
Überprüfen Sie die Einstellungen.
-
Wählen Sie Rolle erstellen aus.
-
-
Wenn Sie die Richtlinie zu einer vorhandenen Rolle hinzufügen, gehen Sie wie folgt vor:
-
Wählen Sie unter Rollenname den Namen der Rolle aus. Das Hauptfenster ändert sich und zeigt nun Informationen zu Ihrer Rolle an.
-
Wählen Sie im Abschnitt Berechtigungsrichtlinien den Abwärtspfeil neben Berechtigungen hinzufügen aus.
-
Wählen Sie aus den angezeigten Optionen die Option Richtlinien anfügen aus.
-
Suchen Sie in der Liste der angezeigten Richtlinien nach der Richtlinie, die Sie unter So fügen Sie Ihrer IAM-Richtlinie Berechtigungen hinzu, wählen Sie sie aus und aktivieren Sie das Kontrollkästchen neben dem Namen Ihrer Richtlinie. Wenn Sie keine benutzerdefinierte IAM-Richtlinie erstellt haben, suchen Sie nach den entsprechenden Richtlinien
AmazonSageMakerFullAccessundAmazonS3FullAccessaktivieren Sie sie. AWS Möglicherweise möchten Sie die Ebene der Berechtigungen berücksichtigen, die Ihrer IAM-Rolle zugewiesen werden sollen. Die Anweisungen für die benutzerdefinierte IAM-Richtlinie sind weniger freizügig, während letztere toleranter ist. Weitere Informationen zu derAmazonSageMakerFullAccessRichtlinie finden Sie unter AmazonSageMakerFullAccess. -
Wählen Sie Add permissions (Berechtigungen hinzufügen) aus. Ein Banner oben auf der Seite sollte darauf hinweisen, dass die Richtlinie erfolgreich an die Rolle angehängt wurde. wenn abgeschlossen.
-
So fügen Sie eine Vertrauensrichtlinie zu Ihrer IAM-Rolle hinzu
Die folgende Vertrauensrichtlinie ermöglicht es Administratoren, SageMaker KI die Übernahme der Rolle zu gestatten. Sie müssen die Richtlinie zu Ihrer IAM-Rolle hinzufügen. Gehen Sie dazu wie folgt vor.
Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/
. -
Geben Sie in die Suchleiste oben auf der Seite
IAMein. -
Wählen Sie unter Dienste die Option Identity and Access Management (IAM) aus.
-
Wählen Sie im Navigationsbereich Roles (Rollen) aus.
-
Wählen Sie unter Rollenname den Namen der Rolle aus. Das Hauptfenster ändert sich und zeigt nun Informationen zu Ihrer Rolle an.
-
Wählen Sie die Registerkarte Vertrauensstellung aus.
-
Wählen Sie Vertrauensrichtlinie bearbeiten aus.
-
Stellen Sie sicher, dass die folgende Richtlinie unter Vertrauensrichtlinie bearbeiten angezeigt wird. Sie können auch Folgendes kopieren und in den Editor einfügen.
-
Wählen Sie Richtlinie aktualisieren. Ein Banner oben auf der Seite sollte darauf hinweisen, dass die Vertrauensrichtlinie aktualisiert wurde. wenn abgeschlossen.
Sie können einen menschlichen Bewertungsauftrag mithilfe eines textbasierten Modells erstellen, das in verfügbar ist, JumpStart oder Sie können ein JumpStart Modell verwenden, das Sie zuvor auf einem Endpunkt bereitgestellt haben.
Um zu starten JumpStart
Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/
. -
Geben Sie in die Suchleiste oben auf der Seite
SageMaker AIein. -
Wählen Sie unter Services Amazon SageMaker AI aus.
-
Wählen Sie im Navigationsbereich Studio aus.
-
Wählen Sie Ihre Domain im Bereich Erste Schritte aus, nachdem Sie den Abwärtspfeil unter Domain auswählen erweitert haben.
-
Wählen Sie im Abschnitt Erste Schritte Ihr Benutzerprofil aus, nachdem Sie den Abwärtspfeil unter Benutzerprofil auswählen erweitert haben.
-
Wählen Sie Studio öffnen, um die Landingpage für Studio zu öffnen.
-
Wählen Sie im Navigationsbereich Aufträge aus.
Um einen Evaluierungsjob einzurichten
-
Wählen Sie auf der Startseite der Modellevaluierung die Option Modell evaluieren aus
-
Geben Sie die Auftragsdetails an.
-
Geben Sie den Namen der Evaluierung Ihrer Modellevaluierung ein. Anhand dieses Namens können Sie Ihre Modellevaluierungsstelle nach der Einreichung leichter identifizieren.
-
Geben Sie eine Beschreibung ein, um dem Namen mehr Kontext hinzuzufügen.
-
Wählen Sie Weiter aus.
-
-
Einrichten der Auswertung
-
Wählen Sie unter Bewertungstyp auswählen das Optionsfeld neben Mensch aus.
-
Wählen Sie unter Wählen Sie die Modelle aus, die Sie evaluieren möchten die Option Modell zur Bewertung hinzufügen aus. Sie können für jede Bewertung bis zu zwei Modelle auswerten.
-
Um ein vortrainiertes JumpStart Modell zu verwenden, wählen Sie Vortrainiertes Basismodell aus JumpStart . Wenn Sie ein JumpStart Modell verwenden möchten, das Sie zuvor auf einem Endpunkt bereitgestellt haben, wählen Sie Endpoints with JumpStart Foundation Models.
-
Wenn für das Modell eine rechtliche Vereinbarung erforderlich ist, aktivieren Sie das Kontrollkästchen, um zu bestätigen, dass Sie damit einverstanden sind.
-
Wenn Sie ein weiteres Modell hinzufügen möchten, wiederholen Sie den vorherigen Schritt.
-
-
Um das Verhalten des Modells bei der Inferenz zu ändern, wählen Sie Parameter festlegen.
Parameter festlegen enthält eine Liste von Inferenzparametern, die den Grad der Zufälligkeit in der Ausgabe Ihres Modells, die Länge der Ausgabe Ihres Modells und die Wörter, die das Modell als Nächstes wählt, beeinflussen.
-
Wählen Sie als Nächstes einen Aufgabentyp aus. Sie können einen der folgenden Schritte auswählen:
-
Zusammenfassung des Textes
-
Fragen und Antworten (Q&A)
-
Klassifizierung von Texten
-
Generierung mit offenem Ende
-
Custom (Benutzerdefiniert)
-
-
Wählen Sie im Abschnitt Bewertungskennzahlen eine Bewertungsdimension aus und geben Sie zusätzlichen Kontext zu der Dimension in das Textfeld unter Beschreibung ein. Sie können aus den folgenden Dimensionen auswählen:
-
Sprachkompetenz — Misst die sprachliche Qualität eines generierten Textes.
-
Kohärenz — Misst die Organisation und Struktur eines generierten Textes.
-
Toxizität — Misst die Schädlichkeit eines generierten Textes.
-
Genauigkeit — Gibt die Genauigkeit eines generierten Textes an.
-
Eine benutzerdefinierte Bewertungsdimension, deren Namen und Beschreibung Sie für Ihr Arbeitsteam definieren können.
Gehen Sie wie folgt vor, um eine benutzerdefinierte Bewertungsdimension hinzuzufügen:
-
Wählen Sie Bewertungsdimension hinzufügen aus.
-
Geben Sie in das Textfeld Bewertungsdimension bereitstellen den Namen Ihrer benutzerdefinierten Dimension ein.
-
Geben Sie in das Textfeld „Beschreibung für diese Bewertungsdimension angeben“ eine Beschreibung ein, damit Ihr Arbeitsteam versteht, wie Ihre benutzerdefinierte Dimension bewertet werden soll.
-
Unter jeder dieser Kennzahlen befinden sich Berichtskennzahlen, die Sie über den Abwärtspfeil Metriktyp auswählen auswählen können. Wenn Sie zwei Modelle auswerten müssen, können Sie entweder Vergleichskennzahlen oder einzelne Berichtskennzahlen wählen. Wenn Sie ein Modell zu evaluieren haben, können Sie nur einzelne Berichtsmetriken auswählen. Sie können für jede der oben genannten Kennzahlen die folgenden Typen von Berichtskennzahlen wählen.
-
(Vergleichs-) Likert-Skala — Vergleich — Ein menschlicher Bewerter gibt gemäß Ihren Anweisungen auf einer 5-Punkte-Likert-Skala an, welche der beiden Antworten sie bevorzugen. Die Ergebnisse im Abschlussbericht werden als Histogramm der Präferenzbewertungen der Bewerter für Ihren gesamten Datensatz angezeigt. Definieren Sie in Ihren Anweisungen die wichtigen Punkte der 5-Punkte-Skala, damit Ihre Bewerter wissen, wie sie die Antworten erwartungsgemäß bewerten können. In der in Amazon S3 gespeicherten JSON-Ausgabe wird diese Auswahl als
ComparisonLikertScaleSchlüssel-Wert-Paar dargestellt"evaluationResults":"ComparisonLikertScale". -
(Vergleichend) Auswahlschaltflächen – ermöglicht es einem menschlichen Bewerter, seine bevorzugte Antwort gegenüber einer anderen Antwort anzugeben. Die Bewerter geben anhand von Optionsfeldern an, welche von zwei Antworten sie gemäß Ihren Anweisungen bevorzugen. Die Ergebnisse im Abschlussbericht werden als Prozentsatz der Antworten ausgewiesen, die die Mitarbeiter für jedes Modell bevorzugt haben. Erläutern Sie Ihre Auswertungsmethode in Ihrer Anleitung klar. In der in Amazon S3 gespeicherten JSON-Ausgabe wird diese Auswahl als
ComparisonChoiceSchlüssel-Wert-Paar dargestellt"evaluationResults":"ComparisonChoice". -
(Vergleichend) Ordinale Reihenfolge – ermöglicht es einem menschlichen Bewerter, seine bevorzugten Antworten auf einen Prompt in der Reihenfolge von
1beginnend und gemäß Ihren Anweisungen zu ordnen. Die Ergebnisse im Abschlussbericht werden als Histogramm der Bewertungen der Bewerter für den gesamten Datensatz angezeigt. Definieren Sie in Ihren Anweisungen, was ein Rang von1bedeutet. In der in Amazon S3 gespeicherten JSON-Ausgabe wird diese Auswahl alsComparisonRankSchlüssel-Wert-Paar dargestellt"evaluationResults":"ComparisonRank". -
(Individuell) Daumen hoch/runter – ermöglicht es einem menschlichen Bewerter, jede Antwort eines Modells gemäß Ihren Anweisungen als akzeptabel oder inakzeptabel zu bewerten. Die Ergebnisse im Abschlussbericht werden als Prozentsatz der Gesamtzahl der abgegebenen Bewertungen ausgewiesen, die für jedes Modell eine positive Bewertung (Daumen hoch) erhalten haben. Sie können diese Bewertungsmethode für die Auswertung eines oder mehrerer Modelle verwenden. Wenn Sie diese Methode für eine Auswertung mit zwei Modellen verwenden, wird Ihrem Arbeitsteam für jede Modellantwort ein „Daumen hoch/runter“ angezeigt, und im Abschlussbericht werden die aggregierten Ergebnisse für jedes Modell einzeln aufgeführt. Definieren Sie in Ihren Anweisungen, was als Bewertung „Daumen hoch“ oder „Daumen runter“ zulässig ist. In der in Amazon S3 gespeicherten JSON-Ausgabe wird diese Auswahl als
ThumbsUpDownSchlüssel-Wert-Paar dargestellt"evaluationResults":"ThumbsUpDown". -
(Individuell) Likert-Skala – individuell – ermöglicht es einem menschlichen Bewerter, anhand Ihrer Anweisungen auf einer 5-Punkte-Likert-Skala anzugeben, wie sehr er die Modellantwort befürwortet. Die Ergebnisse im Abschlussbericht werden als Histogramm der 5-Punkte-Bewertungen der Bewerter für Ihren gesamten Datensatz angezeigt. Sie können diese Skala für eine Auswertung eines oder mehrerer Modelle verwenden. Wenn Sie diese Bewertungsmethode für eine Auswertung mit mehr als einem Modell verwenden, wird Ihrem Arbeitsteam für jede Modellantwort eine 5-Punkte-Likert-Skala angezeigt, und im Abschlussbericht werden die aggregierten Ergebnisse für jedes Modell einzeln aufgeführt. Definieren Sie in Ihren Anweisungen die wichtigen Punkte der 5-Punkte-Skala, damit Ihre Bewerter wissen, wie sie die Antworten erwartungsgemäß bewerten können. In der in Amazon S3 gespeicherten JSON-Ausgabe wird diese Auswahl als
IndividualLikertScaleSchlüssel-Wert-Paar dargestellt"evaluationResults":"IndividualLikertScale".
-
-
Wählen Sie einen Prompt-Datensatz aus. Dieser Datensatz ist erforderlich und wird von Ihrem menschlichen Arbeitsteam verwendet, um die Antworten aus Ihrem Modell auszuwerten. Geben Sie den S3-URI für einen Amazon S3 S3-Bucket an, der Ihren Prompt-Datensatz im Textfeld unter S3-URI für Ihre Eingabedatensatzdatei enthält. Ihr Datensatz muss
jsonlinesformatiert sein und die folgenden Schlüssel enthalten, um zu identifizieren, welche Teile Ihres Datensatzes die Benutzeroberfläche zur Bewertung Ihres Modells verwenden wird:-
prompt— Die Anfrage, auf die Ihr Modell eine Antwort generieren soll. -
(Optional)
category— — Die Kategoriebezeichnungen für Ihre Aufforderung. DercategorySchlüssel wird verwendet, um Ihre Eingabeaufforderungen zu kategorisieren, sodass Sie Ihre Bewertungsergebnisse später nach Kategorien filtern können, um ein tieferes Verständnis der Bewertungsergebnisse zu erhalten. Es ist nicht an der Bewertung selbst beteiligt, und die Mitarbeiter sehen es nicht auf der Evaluationsoberfläche. -
(Optional)
referenceResponse— Die Referenzantwort für Ihre menschlichen Gutachter. Die Referenzantwort wird von Ihren Mitarbeitern nicht bewertet, kann aber anhand Ihrer Anweisungen dazu verwendet werden, herauszufinden, welche Antworten akzeptabel oder inakzeptabel sind. -
(Optional)
responses— Wird verwendet, um Schlussfolgerungen aus einem Modell außerhalb von SageMaker KI oder außerhalb von AWS zu spezifizieren.Dieses Objekt benötigt zwei zusätzliche Schlüssel-Wert-Paare
"modelIdentifier, bei denen es sich um eine Zeichenfolge handelt, die das Modell identifiziert, und bei der es sich um"text"die Inferenz des Modells handelt.Wenn Sie in einer Eingabe des benutzerdefinierten Prompt-Datensatzes einen
"responses"Schlüssel angeben, muss er in allen Eingaben angegeben werden. -
Das folgende
jsonCodebeispiel zeigt die akzeptierten Schlüssel-Wert-Paare in einem benutzerdefinierten Prompt-Datensatz. Das Kontrollkästchen Bring your own inference muss aktiviert sein, wenn ein Antwortschlüssel angegeben wird. Wenn diese Option aktiviert ist, muss derresponsesSchlüssel immer in jeder Aufforderung angegeben werden. Das folgende Beispiel könnte in einem Frage-und-Antwort-Szenario verwendet werden.{ "prompt": { "text": "Aurillac is the capital of" }, "category": "Capitals", "referenceResponse": { "text": "Cantal" }, "responses": [ // All responses must come from a single model. If specified it must be present in all JSON objects. modelIdentifier and text are then also required. { "modelIdentifier":"meta-textgeneration-llama-codellama-7b", "text":"The capital of Aurillac is Cantal."} ] }
-
-
Geben Sie in das Textfeld unter Wählen Sie einen S3-Speicherort zum Speichern Ihrer Bewertungsergebnisse einen S3-Bucket-Speicherort ein, an dem Sie die ausgegebenen Bewertungsergebnisse speichern möchten. Die an diesen S3-Speicherort geschriebene Ausgabedatei hat
JSONein Format, das mit der Erweiterung, endet.json. -
Anmerkung
Wenn Sie Ihre eigenen Inferenzdaten in die Modellevaluierung einbeziehen möchten, können Sie nur ein einziges Modell verwenden.
(Optional) Aktivieren Sie das Kontrollkästchen unter Bring your own inference, um anzugeben, dass Ihr Prompt-Datensatz den
responsesSchlüssel enthält. Wenn Sie denresponsesSchlüssel als Teil einer Eingabeaufforderung angeben, muss er in allen Eingabeaufforderungen enthalten sein. -
Konfigurieren Sie Ihren Prozessor im Abschnitt Prozessorkonfiguration mit den folgenden Parametern:
-
Verwenden Sie die Anzahl der Instances, um die Anzahl der RechenInstances anzugeben, die für die Ausführung Ihres Modells verwendet werden sollen. Wenn Sie mehr als eine
1Instance verwenden, wird Ihr Modell in parallel Instances ausgeführt. -
Verwenden Sie den Instanztyp, um die Art der Recheninstanz auszuwählen, die Sie zur Ausführung Ihres Modells verwenden möchten. AWSverfügt über allgemeine Recheninstanzen und Instanzen, die für Datenverarbeitung und Arbeitsspeicher optimiert sind. Weitere Informationen zu den Instance-Typen finden Sie unter Instance-Typen, die für die Verwendung mit Amazon SageMaker Studio Classic-Notebooks verfügbar sind.
-
Wenn Sie möchten, dass SageMaker KI anstelle des standardmäßigen AWS Managed Service-Schlüssels Ihren eigenen Verschlüsselungsschlüssel AWS Key Management Service (AWS KMS) verwendet, wählen Sie unter Volume-KMS-Schlüssel die Option On aus und geben Sie den AWS KMS Schlüssel ein. SageMaker KI verwendet Ihren AWS KMS Schlüssel, um Daten auf dem Speichervolume zu verschlüsseln. Weitere Informationen zu Schlüsseln finden Sie unter AWS Key Management Service.
-
Wenn Sie möchten, dass SageMaker KI anstelle des standardmäßigen AWS Managed Service-Schlüssels Ihren eigenen Verschlüsselungsschlüssel AWS Key Management Service (AWS KMS) verwendet, wählen Sie unter KMS-Ausgabeschlüssel die Option Ein und geben Sie den AWS KMS Schlüssel ein. SageMaker KI verwendet Ihren AWS KMS Schlüssel, um die Ausgabe des Verarbeitungsauftrags zu verschlüsseln.
-
Verwenden Sie eine IAM-Rolle, um den Zugriff und die Berechtigungen für den Standardprozessor festzulegen. Geben Sie die IAM-Rolle ein, die Sie im Abschnitt Richten Sie Ihre IAM-Rolle in diesem Abschnitt Eine menschliche Bewertung ausführen eingerichtet haben.
-
-
Nachdem Sie Ihr Modell und Ihre Kriterien angegeben haben, wählen Sie Weiter aus.
-
Ihr Arbeitsteam besteht aus den Personen, die Ihr Modell evaluieren. Nachdem Ihr Arbeitsteam erstellt wurde, bleibt es auf unbestimmte Zeit bestehen und Sie können seine Eigenschaften nicht ändern. Im Folgenden wird erläutert, wie Sie mit Ihrem Arbeitsteam beginnen können.
Richten Sie Ihr Arbeitsteam ein
-
Wählen Sie im Eingabefeld Team auswählen ein vorhandenes Team aus oder erstellen Sie ein neues Team.
-
Geben Sie im Feld Name der Organisation einen Namen Ihrer Organisation ein. Dieses Feld wird nur angezeigt, wenn Sie das erste Arbeitsteam im Konto erstellen.
-
Geben Sie eine Kontakt-E-Mail an. Ihre Mitarbeiter werden diese E-Mail verwenden, um mit Ihnen über die Bewertungsaufgabe zu kommunizieren, die Sie ihnen stellen werden. Dieses Feld wird nur angezeigt, wenn Sie das erste Arbeitsteam im Konto erstellen.
-
Geben Sie einen Teamnamen ein. Sie können diese Namen später nicht mehr ändern.
-
Geben Sie eine Liste mit E-Mail-Adressen für jeden Ihrer menschlichen Mitarbeiter an, die Ihr Large Language Model (LLM) evaluieren werden. Wenn Sie die E-Mail-Adressen für Ihr Team angeben, werden diese nur dann über einen neuen Job informiert, wenn sie neu zu einem Arbeitsteam hinzugefügt werden. Wenn Sie dasselbe Team für einen nachfolgenden Job verwenden, müssen Sie es manuell benachrichtigen.
-
Geben Sie dann die Anzahl der Mitarbeiter pro Aufforderung an
Geben Sie Anweisungen für Ihr Arbeitsteam
-
Stellen Sie Ihrer Belegschaft detaillierte Anweisungen zur Verfügung, damit sie Ihr Modell anhand Ihrer Kennzahlen und Standards bewerten können. Eine Vorlage im Hauptfenster enthält Beispielanweisungen, die Sie bereitstellen können. Weitere Informationen zum Erteilen von Anweisungen finden Sie unter Gute Anweisungen für Mitarbeiter erstellen.
-
Um Verzerrung bei Ihrer menschlichen Bewertung so gering wie möglich zu halten, müssen Sie das Kontrollkästchen neben Positionen der Antworten randomisieren.
-
Klicken Sie auf Weiter.
Sie können sich die Zusammenfassung der Auswahlen ansehen, die Sie für Ihre menschliche Tätigkeit getroffen haben. Wenn Sie Ihren Job ändern müssen, wählen Sie Zurück, um zu einer früheren Auswahl zurückzukehren.
Reichen Sie Ihre Stellenbewertungsanfrage ein und sehen Sie sich den Auftragsfortschritt an
-
Um Ihre Bewertungsanfrage einzureichen, wählen Sie Ressource erstellen.
-
Um den Status aller Ihrer Aufträge anzuzeigen, wählen Sie im Navigationsbereich Aufträge aus. Wählen Sie dann Modellevaluierung aus. Der Evaluierungsstatus wird als Abgeschlossen, Fehlgeschlagen oder In Bearbeitung angezeigt.
Folgendes wird ebenfalls angezeigt:
-
Beispielnotizbücher zur Durchführung einer Modellevaluierung in SageMaker KI und Amazon Bedrock.
-
Links zu zusätzlichen Informationen wie Dokumentation, Videos, Neuigkeiten und Blogs über den Modellevaluierungsprozess.
-
Die URL zu Ihrem Privatarbeiterportal ist ebenfalls verfügbar.
-
-
Wählen Sie unter Name Ihre Modellevaluierung aus, um eine Zusammenfassung Ihrer Bewertung anzuzeigen.
-
Die Zusammenfassung enthält Informationen über den Status des Jobs, welche Art von Bewertungsaufgabe Sie für welches Modell ausgeführt haben und wann sie ausgeführt wurde. Im Anschluss an die Zusammenfassung werden die Ergebnisse der menschlichen Bewertung nach Kennzahlen sortiert und zusammengefasst.
-
Sehen Sie sich das Zeugnis Ihres Auftrags zur Modellbewertung an, bei dem menschliche Mitarbeiter eingesetzt werden
-
Um den Bericht für Ihre Jobs anzuzeigen, wählen Sie im Navigationsbereich Jobs aus.
-
Wählen Sie dann Modellevaluierung aus. Suchen Sie auf der Startseite der Modellevaluationen anhand der Tabelle nach Ihrem Job zur Modellevaluierung. Sobald sich der Status des Jobs auf Abgeschlossen geändert hat, können Sie Ihr Zeugnis einsehen.
-
Wählen Sie den Namen des Auftrags zur Modellbewertung auf seiner Berichtskarte aus.
Wenn Sie einen Modellevaluierungsjob erstellen, bei dem menschliche Mitarbeiter verwendet werden, haben Sie die Möglichkeit, Ihre eigenen Inferenzdaten mitzubringen und Ihre Mitarbeiter diese Inferenzdaten mit Daten vergleichen zu lassen, die von einem anderen JumpStart Modell oder einem Modell erzeugt wurden, das Sie auf einem JumpStart Endpunkt bereitgestellt haben.
In diesem Thema wird das für die Inferenzdaten erforderliche Format beschrieben. Außerdem wird ein vereinfachtes Verfahren beschrieben, wie Sie diese Daten zu Ihrem Modellevaluierungsjob hinzufügen können.
Wählen Sie einen Prompt-Datensatz aus. Dieser Datensatz ist erforderlich und wird von Ihrem menschlichen Arbeitsteam verwendet, um die Antworten aus Ihrem Modell auszuwerten. Geben Sie die S3-URI für einen Amazon S3 S3-Bucket, der Ihren Prompt-Datensatz enthält, in das Textfeld unter Wählen Sie einen S3-Standort, um Ihre Evaluierungsergebnisse zu speichern, ein. Ihr Datensatz muss das .jsonl Format haben. Jeder Datensatz muss ein gültiges JSON-Objekt sein und die folgenden erforderlichen Schlüssel enthalten:
-
prompt— Ein JSON-Objekt, das den Text enthält, der an das Modell übergeben werden soll. -
(Optional)
category— — Die Kategoriebezeichnungen für Ihre Aufforderung. DercategorySchlüssel wird verwendet, um Ihre Eingabeaufforderungen zu kategorisieren, sodass Sie Ihre Bewertungsergebnisse später nach Kategorien filtern können, um ein tieferes Verständnis der Bewertungsergebnisse zu erhalten. Es ist nicht an der Bewertung selbst beteiligt, und die Mitarbeiter sehen es nicht auf der Evaluationsoberfläche. -
(Optional)
referenceResponse— ein JSON-Objekt, das die Referenzantwort für Ihre menschlichen Gutachter enthält. Die Referenzantwort wird von Ihren Mitarbeitern nicht bewertet, kann aber anhand Ihrer Anweisungen dazu verwendet werden, herauszufinden, welche Antworten akzeptabel oder inakzeptabel sind. -
responses— Wird verwendet, um individuelle Schlussfolgerungen aus einem Modell außerhalb von SageMaker KI oder außerhalb von zu spezifizieren. AWSFür dieses Objekt sind zwei zusätzliche Schlüssel-Wert-Paare
"modelIdentifiererforderlich. Dabei handelt es sich um eine Zeichenfolge, die das Modell identifiziert, und bei der es sich um"text"die Inferenz des Modells handelt.Wenn Sie in einer Eingabe des benutzerdefinierten Prompt-Datensatzes einen
"responses"Schlüssel angeben, muss er in allen Eingaben angegeben werden.
Das folgende json Codebeispiel zeigt die akzeptierten Schlüssel-Wert-Paare in einem benutzerdefinierten Prompt-Dataset, das Ihre eigenen Inferenzdaten enthält.
{ "prompt": { "text": "Who invented the airplane?" }, "category": "Airplanes", "referenceResponse": { "text": "Orville and Wilbur Wright" }, "responses": // All inference must come from a single model [{ "modelIdentifier":"meta-textgeneration-llama-codellama-7b", "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane." }] }
Starten Sie zunächst Studio und wählen Sie in der Hauptnavigation unter Jobs die Option Modellevaluierung aus.
Um Ihre eigenen Inferenzdaten zu einem Job zur Bewertung eines menschlichen Modells hinzuzufügen.
-
Fügen Sie in Schritt 1: Jobdetails angeben den Namen Ihres Jobs zur Modellbewertung und eine optionale Beschreibung hinzu.
-
Wählen Sie in Schritt 2: Bewertung einrichten die Option Mensch aus.
-
Als Nächstes können Sie unter Wählen Sie die Modelle aus, die Sie bewerten möchten, das Modell auswählen, das Sie verwenden möchten. Sie können entweder ein JumpStart Modell verwenden, das bereits bereitgestellt wurde, oder Sie können ein vorab trainiertes Jumpstart-Foundation-Modell wählen.
-
Wählen Sie dann einen Aufgabentyp aus.
-
Als Nächstes können Sie Bewertungsmetriken hinzufügen.
-
Aktivieren Sie anschließend unter Prompt-Datensatz das Kontrollkästchen Bring your own inference, um anzugeben, dass Ihre Eingabeaufforderungen Antwortschlüssel enthalten.
-
Fahren Sie dann mit der Einrichtung Ihres Jobs zur Modellbewertung fort.
Weitere Informationen darüber, wie die Antworten aus Ihrem Auftrag zur Modellbewertung gespeichert werden, bei dem Mitarbeiter eingesetzt werden, Machen Sie sich mit den Ergebnissen einer menschlichen Evaluierungsaufgabe vertraut