Creazione di un processo di valutazione del modello con lavoratori umani - Amazon SageMaker AI

Creazione di un processo di valutazione del modello con lavoratori umani

Importante

Le policy IAM personalizzate che consentono ad Amazon SageMaker Studio o Amazon SageMaker Studio Classic di creare risorse Amazon SageMaker devono inoltre concedere le autorizzazioni per aggiungere tag a tali risorse. L’autorizzazione per aggiungere tag alle risorse è necessaria perché Studio e Studio Classic applicano automaticamente tag a tutte le risorse che creano. Se una policy IAM consente a Studio e Studio Classic di creare risorse ma non consente il tagging, possono verificarsi errori di tipo “AccessDenied” quando provi a creare le risorse. Per ulteriori informazioni, consulta Concessione delle autorizzazioni per il tagging delle risorse SageMaker AI.

Policy gestite da AWS per Amazon SageMaker AI, che forniscono autorizzazioni per creare risorse SageMaker, includono già le autorizzazioni per aggiungere tag durante la creazione di tali risorse.

Per creare un processo di valutazione del modello con lavoratori umani, devi configurare l’ambiente in modo da disporre delle autorizzazioni corrette. Successivamente, puoi seguire la procedura guidata per il processo di valutazione del modello in Studio per selezionare i modelli da utilizzare e quindi definire i parametri e la forza lavoro da impiegare nel processo di valutazione del modello.

Una volta completato il processo, puoi visualizzare un report per comprendere in che modo la forza lavoro ha valutato i modelli selezionati. I risultati vengono salvati anche in Amazon S3 come file di output jsonlines.

In un processo di valutazione del modello con lavoratori umani, puoi importare i dati di inferenza da modelli ospitati all’esterno di SageMaker AI e di AWS. Per ulteriori informazioni, consulta Utilizzo dei tuoi dati di inferenza in processi di valutazione del modello con lavoratori umani.

Una volta completati i processi, i risultati vengono salvati nel bucket Amazon S3 specificato al momento della creazione del processo. Per informazioni su come interpretare i risultati, consulta Informazioni sui risultati del processo di valutazione del modello.

Prerequisiti

Per eseguire una valutazione del modello nell’interfaccia utente di Amazon SageMaker Studio, il ruolo AWS Identity and Access Management (IAM) e tutti i set di dati di input devono disporre delle autorizzazioni corrette. Se non disponi di un dominio SageMaker AI o di un ruolo IAM, segui la procedura indicata in Guida alla configurazione con Amazon SageMaker AI.

Configurazione delle autorizzazioni

La sezione seguente mostra come creare un bucket Amazon S3 e come specificare le autorizzazioni Condivisione delle risorse multiorigine (CORS) corrette.

Per creare un bucket Amazon S3 e specificare le autorizzazioni CORS
  1. Apri la console di Amazon SageMaker AI all’indirizzo https://console.aws.amazon.com/sagemaker/.

  2. Nel riquadro di navigazione, immetti S3 nella barra di ricerca nella parte superiore della pagina.

  3. In Servizi, scegli S3.

  4. Nel riquadro di navigazione, scegli Bucket.

  5. Nella sezione Bucket per uso generico, in Nome, scegli il nome del bucket S3 da utilizzare per archiviare l’input e l’output del modello nella console. Se non hai già un bucket S3, procedi come descritto di seguito.

    1. Seleziona Crea bucket per aprire una nuova pagina Crea bucket.

    2. Nella sezione Configurazione generale, in Regione AWS, seleziona la Regione AWS in cui si trova il modello di fondazione.

    3. Assegna un nome al bucket S3 nella casella di input in Nome bucket.

    4. Accetta tutte le scelte predefinite.

    5. Seleziona Crea bucket.

    6. Nella sezione Bucket per uso generico, in Nome, seleziona il nome del bucket S3 che hai creato.

  6. Scegli la scheda Autorizzazioni.

  7. Scorri fino alla sezione Condivisione delle risorse multiorigine (CORS) nella parte inferiore della finestra. Scegli Modifica.

  8. Di seguito è riportata la policy CORS minima richiesta che devi aggiungere al bucket Amazon S3. Copia e incolla quanto segue nella casella di input:

    [ { "AllowedHeaders": ["*"], "AllowedMethods": [ "GET", "HEAD", "PUT" ], "AllowedOrigins": [ "*" ], "ExposeHeaders": [ "Access-Control-Allow-Origin" ], "MaxAgeSeconds": 3000 } ]
  9. Scegli Save changes (Salva modifiche).

Per aggiungere le autorizzazioni alla policy IAM

Valuta il livello di autorizzazione da assegnare al tuo ruolo IAM.

Per collegare le policy esistenti al tuo ruolo IAM, puoi saltare queste istruzioni e utilizzare quelle riportate nella sezione Per aggiungere le autorizzazioni al ruolo IAM.

Le istruzioni seguenti creano una policy IAM personalizzata su misura per questo servizio con autorizzazioni minime.

  1. Apri la console di Amazon SageMaker AI all’indirizzo https://console.aws.amazon.com/sagemaker/.

  2. Immetti IAM nella barra di ricerca nella parte superiore della pagina.

  3. In Servizi, seleziona Identity and Access Management (IAM).

  4. Nel riquadro di navigazione, scegli Policy.

  5. Scegli Crea policy. Nella sezione Editor di policy, scegli JSON.

  6. Verifica che le autorizzazioni seguenti siano presenti in Editor di policy. Puoi anche copiare e incollare quanto segue in Editor di policy.

    JSON
    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject", "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::{input_bucket}/*", "arn:aws:s3:::{input_bucket}", "arn:aws:s3:::{output_bucket}/*", "arn:aws:s3:::{output_bucket}", "arn:aws:s3:::jumpstart-cache-prod-{region}/*", "arn:aws:s3:::jumpstart-cache-prod-{region}" ] }, { "Effect": "Allow", "Action": [ "sagemaker:CreateEndpoint", "sagemaker:DeleteEndpoint", "sagemaker:CreateEndpointConfig", "sagemaker:DeleteEndpointConfig" ], "Resource": [ "arn:aws:sagemaker:us-east-1:111122223333:endpoint/sm-margaret-*", "arn:aws:sagemaker:us-east-1:111122223333:endpoint-config/sm-margaret-*" ], "Condition": { "ForAnyValue:StringEquals": { "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id" } } }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeProcessingJob", "sagemaker:DescribeEndpoint", "sagemaker:InvokeEndpoint" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeInferenceComponent", "sagemaker:AddTags", "sagemaker:CreateModel", "sagemaker:DeleteModel" ], "Resource": "arn:aws:sagemaker:us-east-1:111122223333:model/*", "Condition": { "ForAnyValue:StringEquals": { "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id" } } }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeFlowDefinition", "sagemaker:StartHumanLoop", "sagemaker:DescribeHumanLoop" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "logs:CreateLogStream", "logs:PutLogEvents", "logs:CreateLogGroup", "logs:DescribeLogStreams" ], "Resource": "arn:aws:logs:us-east-1:111122223333:log-group:/aws/sagemaker/ProcessingJobs:*" }, { "Effect": "Allow", "Action": [ "cloudwatch:PutMetricData" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "ecr:GetAuthorizationToken", "ecr:BatchCheckLayerAvailability", "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "kms:DescribeKey", "kms:GetPublicKey", "kms:Decrypt", "kms:Encrypt" ], "Resource": [ "arn:aws:kms:us-east-1:111122223333:key/{kms-key-id}" ] }, { "Effect": "Allow", "Action": [ "iam:PassRole" ], "Resource": "arn:aws:iam::111122223333:role/{this-role-created-by-customer}", "Condition": { "StringEquals": { "aws:PrincipalAccount": [ "111122223333" ] } } } ] }
  7. Scegli Next (Successivo).

  8. Inserisci il nome della policy nella sezione Dettagli della policy, in Nome della policy. Facoltativamente, è possibile inserire una descrizione. Quando assegni la policy a un ruolo, dovrai cercare questo nome.

  9. Scegli Crea policy.

Per aggiungere le autorizzazioni al ruolo IAM
  1. Apri la console di Amazon SageMaker AI all’indirizzo https://console.aws.amazon.com/sagemaker/.

  2. Immetti IAM nella barra di ricerca nella parte superiore della pagina.

  3. In Servizi, seleziona Identity and Access Management (IAM).

  4. Nel riquadro di navigazione scegliere Roles (Ruoli).

  5. Se stai creando un nuovo ruolo:

    1. Scegli Crea ruolo.

    2. Nella fase Seleziona un’entità attendibile, in Tipo di entità attendibile, scegli Policy di attendibilità personalizzata.

    3. Nell’editor delle policy di attendibilità personalizzate, accanto ad Aggiungi principale scegli Aggiungi.

    4. Nella finestra pop-up Aggiungi principale, in Tipo principale, seleziona Servizi AWS dall’elenco a discesa delle opzioni.

    5. In ARN, sostituisci {ServiceName} con sagemaker.

    6. Seleziona Aggiungi principale.

    7. Scegli Next (Successivo).

    8. (Facoltativo) In Policy di autorizzazione seleziona le policy da aggiungere al tuo ruolo.

    9. (Facoltativo) In Imposta limite delle autorizzazioni (facoltativo), scegli l’impostazione desiderata.

    10. Scegli Next (Successivo).

    11. Nella fase Nomina, verifica e crea, in Dettagli del ruolo, compila i campi Nome ruolo e Descrizione.

    12. (Facoltativo) In Aggiungi tag (facoltativo), puoi aggiungere tag scegliendo Aggiungi nuovo tag e puoi inserire una coppia Chiave-valore (facoltativo).

    13. Verificare le impostazioni.

    14. Scegli Crea ruolo.

  6. Se stai aggiungendo la policy a un ruolo esistente:

    1. Seleziona il nome del ruolo in Nome ruolo. La finestra principale cambia per mostrare le informazioni sul tuo ruolo.

    2. Nella sezione Policy di autorizzazione, seleziona la freccia giù accanto ad Aggiungi autorizzazioni.

    3. Tra le opzioni visualizzate, scegli Collega policy.

    4. Nell’elenco delle policy visualizzato, cerca e seleziona la policy che hai creato in Per aggiungere le autorizzazioni alla policy IAM e seleziona la casella di controllo accanto al nome della policy. Se non hai creato una policy IAM personalizzata, cerca e seleziona le caselle di controllo accanto alle policy AmazonSageMakerFullAccess e AmazonS3FullAccess fornite da AWS. Valuta il livello di autorizzazione da assegnare al tuo ruolo IAM. L’istruzione per la policy IAM personalizzata è meno permissiva, mentre la seconda è meno rigida. Per ulteriori informazioni sulla policy AmazonSageMakerFullAccess, consulta AmazonSageMakerFullAccess.

    5. Scegli Aggiungi autorizzazioni. Al termine, un banner nella parte superiore della pagina dovrebbe indicare che la policy è stata collegata correttamente al ruolo.

Per aggiungere una policy di attendibilità al ruolo IAM

Con la policy di attendibilità seguente, gli amministratori possono consentire a SageMaker AI di assumere il ruolo. Devi aggiungere la policy al ruolo IAM. Utilizza le fasi seguenti per farlo.

  1. Apri la console di Amazon SageMaker AI all’indirizzo https://console.aws.amazon.com/sagemaker/.

  2. Immetti IAM nella barra di ricerca nella parte superiore della pagina.

  3. In Servizi, seleziona Identity and Access Management (IAM).

  4. Nel riquadro di navigazione scegliere Roles (Ruoli).

  5. Seleziona il nome del ruolo in Nome ruolo. La finestra principale cambia per mostrare le informazioni sul tuo ruolo.

  6. Seleziona la scheda Relazione di attendibilità.

  7. Seleziona Modifica policy di attendibilità.

  8. Assicurati che la policy seguente sia visualizzata in Modifica policy di attendibilità. Puoi anche copiare e incollare quanto segue nell’editor.

    JSON
    { "Version": "2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow", "Principal": { "Service": [ "sagemaker.amazonaws.com" ] }, "Action": "sts:AssumeRole" } ] }
  9. Scegli Aggiorna policy. Al termine dell’operazione, dovrebbe comparire un banner con il messaggio Policy di attendibilità aggiornata nella parte superiore della pagina.

Puoi creare un processo di valutazione umana utilizzando un modello basato su testo disponibile in JumpStart oppure utilizzare un modello JumpStart precedentemente implementato su un endpoint.

Per avviare JumpStart
  1. Apri la console di Amazon SageMaker AI all’indirizzo https://console.aws.amazon.com/sagemaker/.

  2. Immetti SageMaker AI nella barra di ricerca nella parte superiore della pagina.

  3. In Servizi, seleziona Amazon SageMaker AI.

  4. Scegli Studio nel riquadro di navigazione.

  5. Scegli il tuo dominio dalla sezione Nozioni di base dopo aver selezionato la freccia giù in Seleziona dominio.

  6. Scegli il tuo profilo utente dalla sezione Nozioni di base dopo aver selezionato la freccia giù in Seleziona profilo utente.

  7. Scegli Apri Studio per aprire la pagina di destinazione di Studio.

  8. Scegli Processi nel riquadro di navigazione.

Per impostare un processo di valutazione
  1. Nella home page Valutazione del modello, scegli Valuta un modello.

  2. Specifica i dettagli del processo.

    1. Immetti Nome valutazione del modello di valutazione. Questo nome consente di identificare il processo di valutazione del modello dopo l’invio.

    2. Immetti una Descrizione per aggiungere altro contesto al nome.

    3. Scegli Next (Successivo).

  3. Configurazione della valutazione

    1. In Scegli un tipo di valutazione, seleziona il pulsante di opzione accanto a Umana.

    2. In Scegli uno o più modelli da valutare, scegli Aggiungi modello alla valutazione. Puoi valutare fino a due modelli per ogni valutazione.

      1. Per utilizzare un modello JumpStart preaddestrato, scegli Modello di fondazione JumpStart preaddestrato. Per utilizzare un modello JumpStart precedentemente implementato su un endpoint, scegli Endpoint con modelli di fondazione JumpStart.

      2. Se il modello richiede un accordo legale, seleziona la casella di controllo per confermare l’accettazione.

      3. Per aggiungere un altro modello, ripeti la fase precedente.

    3. Per modificare il comportamento del modello durante l’inferenza, scegli Imposta parametri.

      Imposta parametri contiene un elenco di parametri di inferenza che influiscono sul grado di casualità nell’output del modello, sulla lunghezza dell’output del modello e sulle parole che il modello sceglierà successivamente.

    4. Quindi, seleziona un Tipo di attività. Puoi selezionare uno qualsiasi dei tipi seguenti:

      • Sintesi testuale

      • Risposta alle domande

      • Classificazione del testo

      • Generazione aperta

      • Personalizza

    5. Nella sezione Metriche di valutazione, scegli una Dimensione di valutazione e aggiungi informazioni di contesto sulla dimensione nella casella di testo sotto Descrizione. Puoi scegliere tra le seguenti dimensioni:

      • Fluidità: misura la qualità linguistica di un testo generato.

      • Coerenza: misura l’organizzazione e la struttura di un testo generato.

      • Tossicità: misura la nocività di un testo generato.

      • Accuratezza: indica l’accuratezza di un testo generato.

      • Una dimensione di valutazione personalizzata di cui puoi definire il nome e la descrizione per il tuo team di lavoro.

        Per aggiungere una dimensione di valutazione personalizzata, procedi come descritto di seguito:

        • Scegli Aggiungi una dimensione di valutazione.

        • Nella casella di testo che contiene Fornisci la dimensione di valutazione, inserisci il nome della dimensione personalizzata.

        • Nella casella di testo che contiene Fornisci una descrizione per questa dimensione di valutazione, inserisci una descrizione in modo che il team di lavoro comprenda come valutare la tua dimensione personalizzata.

      Sotto ciascuna di queste metriche sono disponibili metriche di reporting, selezionabili dalla freccia rivolta verso il basso accanto a Scegli un tipo di metrica. Se hai due modelli da valutare, puoi scegliere metriche di reporting comparative o individuali. Se hai un modello da valutare, puoi scegliere solo metriche di reporting individuali. Puoi scegliere i seguenti tipi di metriche di reporting per ciascuna delle metriche precedenti.

      • (Comparativo) Scala Likert - Confronto: un valutatore umano indicherà la propria preferenza tra due risposte su una scala Likert a cinque punti in base alle tue istruzioni. I risultati del report finale verranno visualizzati sotto forma di istogramma delle valutazioni di intensità delle preferenze fornite dai valutatori sull'intero set di dati. Definisci i punti importanti della scala a cinque punti nelle istruzioni, in modo che i valutatori sappiano come valutare le risposte in base alle tue aspettative. Nell’output JSON salvato in Amazon S3, questa scelta è rappresentata come ComparisonLikertScale nella coppia chiave-valore "evaluationResults":"ComparisonLikertScale".

      • (Comparativo) Pulsanti di scelta: consentono a un valutatore umano di indicare la sua risposta preferita rispetto a un’altra. I valutatori indicano la loro preferenza tra due risposte con i pulsanti di opzione in base alle tue istruzioni. I risultati del report finale verranno visualizzati come percentuale delle risposte preferite dai lavoratori per ciascun modello. Spiega chiaramente il tuo metodo di valutazione nelle istruzioni. Nell’output JSON salvato in Amazon S3, questa scelta è rappresentata come ComparisonChoice nella coppia chiave-valore "evaluationResults":"ComparisonChoice".

      • (Comparativo) Classificazione ordinale: consente a un valutatore umano di classificare, secondo le tue istruzioni, le risposte preferite a un prompt in ordine di preferenza a partire da 1. I risultati del report finale verranno visualizzati sotto forma di istogramma delle classificazioni fornite dai valutatori sull'intero set di dati. Definisci cosa significa una classificazione pari a 1 nelle tue istruzioni. Nell’output JSON salvato in Amazon S3, questa scelta è rappresentata come ComparisonRank nella coppia chiave-valore "evaluationResults":"ComparisonRank".

      • (Individuale) Pollice su/giù: consente a un valutatore umano di valutare ogni risposta di un modello come accettabile/inaccettabile in base alle tue istruzioni. I risultati del report finale saranno mostrati come percentuale del numero totale di valutazioni da parte dei valutatori che hanno ricevuto un pollice in su per ciascun modello. Puoi utilizzare questo metodo di valutazione per valutare uno o più modelli. Se lo utilizzi in una valutazione che contiene due modelli, al team di lavoro verrà offerta l’opzione pollice su o giù per ciascuna risposta del modello e il report finale mostrerà i risultati aggregati di ogni singolo modello. Definisci nelle istruzioni i valori accettabili per la valutazione con il pollice su o giù. Nell’output JSON salvato in Amazon S3, questa scelta è rappresentata come ThumbsUpDown nella coppia chiave-valore "evaluationResults":"ThumbsUpDown".

      • (Individuale) Scala Likert - Individuale: consente a un valutatore umano di indicare in che misura approva la risposta del modello, in base alle tue istruzioni, utilizzando una scala Likert a cinque punti. Nel report finale, i risultati vengono visualizzati sotto forma di istogramma delle valutazioni a cinque punti espresse dai valutatori sull’intero set di dati. Puoi utilizzare questa scala per valutazioni con uno o più modelli. Se selezioni questo metodo per una valutazione che contiene più di un modello, al team di lavoro verrà presentata una scala Likert a cinque punti per ogni risposta del modello e il report finale mostrerà i risultati aggregati per ogni singolo modello. Definisci i punti importanti della scala a cinque punti nelle istruzioni, in modo che i valutatori sappiano come valutare le risposte in base alle tue aspettative. Nell’output JSON salvato in Amazon S3, questa scelta è rappresentata come IndividualLikertScale nella coppia chiave-valore "evaluationResults":"IndividualLikertScale".

    6. Scegli un set di dati dei prompt. Questo set di dati è obbligatorio e verrà utilizzato dal team di lavoro umano per valutare le risposte del modello. Fornisci l’URI S3 a un bucket Amazon S3 che contiene il tuo set di dati dei prompt nella casella di testo in URI S3 per il file del set di dati di input. Il set di dati deve essere in formato jsonlines e deve contenere le chiavi seguenti per indicare quali parti del set di dati verranno utilizzate dall’interfaccia utente per valutare il modello:

      • prompt: la richiesta per la quale il modello deve generare una risposta.

      • (Facoltativo) category: le etichette delle categorie per il prompt. La chiave category viene utilizzata per classificare i prompt in modo da poter filtrare i risultati della valutazione in un secondo momento per categoria per comprenderli meglio. Non fa parte dell’effettiva valutazione e non viene visualizzata nell’interfaccia dei lavoratori.

      • (Facoltativo) referenceResponse: la risposta di riferimento per i valutatori umani. La risposta di riferimento non viene valutata dai lavoratori, ma può essere utilizzata per capire quali risposte sono accettabili o inaccettabili in base alle tue istruzioni.

      • (Facoltativo) responses: utilizzato per specificare le inferenze da un modello esterno a SageMaker AI o ad AWS.

        Questo oggetto richiede due coppie chiave-valore aggiuntive: "modelIdentifier, una stringa che identifica il modello, e "text", l’inferenza del modello.

        Se specifichi una chiave "responses" in qualsiasi input del set di dati dei prompt personalizzato, questa deve essere specificata in tutti gli input.

      • L’esempio di codice json seguente mostra le coppie chiave-valore accettate in un set di dati dei prompt personalizzato. La casella di controllo Utilizza la tua inferenza deve essere selezionata se viene fornita una chiave di risposta. Se selezionata, la chiave responses deve essere sempre specificata in ogni prompt. L’esempio seguente potrebbe essere utilizzato in uno scenario di domande e risposte.

        { "prompt": { "text": "Aurillac is the capital of" }, "category": "Capitals", "referenceResponse": { "text": "Cantal" }, "responses": [ // All responses must come from a single model. If specified it must be present in all JSON objects. modelIdentifier and text are then also required. { "modelIdentifier": "meta-textgeneration-llama-codellama-7b", "text": "The capital of Aurillac is Cantal." } ] }
    7. Inserisci la posizione di un bucket S3 in cui desideri salvare i risultati della valutazione di output nella casella di testo sotto Scegli una posizione S3 dove salvare i risultati della valutazione. Il file di output scritto in questa posizione S3 sarà in formato JSON e terminerà con l’estensione .json.

    8. Nota

      Per includere dati di inferenza personalizzati nel processo di valutazione del modello, puoi utilizzare un solo modello.

      (Facoltativo) Scegli la casella di controllo sotto Utilizza la tua inferenza per indicare che il set di dati dei prompt contiene la chiave responses. Se specifichi la chiave responses come parte di un qualsiasi prompt, deve essere presente in tutti i prompt.

    9. Configura il processore nella sezione Configurazione del processore con i seguenti parametri:

      • Utilizza Numero di istanze per specificare il numero di istanze di calcolo da utilizzare per eseguire il modello. Se utilizzi più di un’istanza 1, il tuo modello verrà eseguito in istanze parallele.

      • Utilizza Tipo di istanza per scegliere il tipo di istanza di calcolo da utilizzare per eseguire il tuo modello. AWS dispone di istanze di calcolo generale e di istanze ottimizzate per il calcolo e la memoria. Per ulteriori informazioni sui tipi di istanze, consulta Tipi di istanze disponibili per l’utilizzo con i notebook Amazon SageMaker Studio Classic.

      • Se desideri che SageMaker AI utilizzi la tua chiave di crittografia AWS Key Management Service (AWS KMS) invece della chiave del servizio gestito da AWS predefinita, seleziona Attivato in Chiave KMS del volume e inserisci la chiave AWS KMS. SageMaker AI utilizzerà la tua chiave AWS KMS per crittografare i dati sul volume di archiviazione. Per ulteriori informazioni sulle chiavi, consulta AWS Key Management Service.

      • Se desideri che SageMaker AI utilizzi la tua chiave di crittografia AWS Key Management Service (AWS KMS) invece della chiave del servizio gestito da AWS predefinita, seleziona Attivato in Chiave KMS di output e inserisci la chiave AWS KMS. SageMaker AI utilizzerà la tua chiave AWS KMS per crittografare l’output del processo di elaborazione.

      • Utilizza un ruolo IAM per specificare l’accesso e le autorizzazioni per il processore predefinito. Inserisci il ruolo IAM che hai impostato nella sezione Configura il tuo ruolo IAM nella sezione Esecuzione di una valutazione umana.

    10. Dopo aver specificato il modello e i criteri, seleziona Avanti.

Il team di lavoro è composto dalle persone che stanno valutando il modello. Una volta creato, il team di lavoro persiste a tempo indefinito e non è possibile modificarne gli attributi. Il video seguente illustra come iniziare con il team di lavoro.

Configurazione del team di lavoro
  1. Scegli un team esistente o crea un nuovo team nella casella di testo di input Seleziona team.

  2. Specifica un nome per l’organizzazione in Nome organizzazione. Questo campo viene visualizzato solo quando crei il primo team di lavoro nell’account.

  3. Specifica un’e-mail di contatto. I lavoratori utilizzeranno questa e-mail per comunicare con te in merito all’attività di valutazione che fornirai loro. Questo campo viene visualizzato solo quando crei il primo team di lavoro nell’account.

  4. Specifica un Nome team. Questo nome non potrà essere modificato in seguito.

  5. Specifica un elenco di indirizzi e-mail per ciascuno dei lavoratori umani che valuteranno il modello linguistico di grandi dimensioni (LLM). Quando specifichi gli indirizzi e-mail per il tuo team, i membri ricevono la notifica di un nuovo processo solo se sono stati aggiunti di recente a un team di lavoro. Se utilizzi lo stesso team per un processo successivo, devi inviare manualmente una notifica.

  6. Quindi, specifica il numero di lavoratori per prompt.

Invio di istruzioni al team di lavoro
  1. Fornisci istruzioni dettagliate alla forza lavoro umana in modo che possa valutare il modello in base alle tue metriche e ai tuoi standard. Un modello nella finestra principale mostra le istruzioni di esempio che puoi fornire. Per ulteriori informazioni su come fornire istruzioni, consulta Creazione di istruzioni valide per i lavoratori.

  2. Per ridurre al minimo i bias nella valutazione umana, seleziona la casella di controllo accanto a Rendi casuali le posizioni di risposta.

  3. Seleziona Avanti.

Puoi rivedere il riepilogo delle selezioni che hai effettuato per il processo umano. Se devi cambiare processo, scegli Indietro per tornare a una selezione precedente.

Invio della richiesta del processo di valutazione e visualizzazione dello stato di avanzamento del processo
  1. Per inviare la richiesta del processo di valutazione, scegli Crea risorsa.

  2. Per visualizzare lo stato di tutti i tuoi processi, scegli Processi nel riquadro di navigazione. Quindi, scegli Valutazione del modello. Lo stato di valutazione viene visualizzato come Completato, Non riuscito o In corso.

    Vengono visualizzati anche:

    • Notebook di esempio per eseguire una valutazione del modello in SageMaker AI e Amazon Bedrock.

    • Link a informazioni aggiuntive tra cui documentazione, video, notizie e blog sul processo di valutazione del modello.

    • L’URL per il portale privato per i lavoratori.

  3. Seleziona la valutazione del modello in Nome per visualizzarne un riepilogo.

    • Il riepilogo fornisce informazioni sullo stato del processo, sul tipo di attività di valutazione eseguita, sul tipo di modello su cui è stata eseguita e su quando è stata eseguita. Dopo il riepilogo, i punteggi della valutazione umana vengono ordinati e sintetizzati per metrica.

Visualizzazione della scheda del report del processo di valutazione del modello con lavoratori umani
  1. Per visualizzare il report relativo ai tuoi processi, scegli Processi nel riquadro di navigazione.

  2. Quindi, scegli Valutazione del modello. Nella home page Valutazioni dei modelli, utilizza la tabella per trovare il tuo processo di valutazione del modello. Quando lo stato del processo diventa Completato, puoi visualizzare la scheda del report.

  3. Scegli il nome del processo di valutazione del modello nella sua scheda del report.

Quando crei un processo di valutazione del modello con lavoratori umani, puoi utilizzare i tuoi dati di inferenza e richiedere ai lavoratori umani di confrontare tali dati di inferenza con i dati prodotti da un altro modello JumpStart o da un modello JumpStart che hai implementato su un endpoint.

Questo argomento descrive il formato richiesto per i dati di inferenza e una procedura semplificata per aggiungere tali dati al processo di valutazione del modello.

Scegli un set di dati dei prompt. Questo set di dati è obbligatorio e verrà utilizzato dal team di lavoro umano per valutare le risposte del modello. Fornisci l’URI S3 a un bucket Amazon S3 che contiene il set di dati dei prompt nella casella di testo sotto Scegli una posizione S3 per salvare i risultati della valutazione. Il set di dati deve essere in formato .jsonl. Ogni record deve essere un oggetto JSON valido e contenere le seguenti chiavi richieste:

  • prompt: un oggetto JSON che contiene il testo da passare al modello.

  • (Facoltativo) category: le etichette delle categorie per il prompt. La chiave category viene utilizzata per classificare i prompt in modo da poter filtrare i risultati della valutazione in un secondo momento per categoria per comprenderli meglio. Non fa parte dell’effettiva valutazione e non viene visualizzata nell’interfaccia dei lavoratori.

  • (Facoltativo) referenceResponse: un oggetto JSON che contiene la risposta di riferimento per i valutatori umani. La risposta di riferimento non viene valutata dai lavoratori, ma può essere utilizzata per capire quali risposte sono accettabili o inaccettabili in base alle tue istruzioni.

  • responses: utilizzato per specificare inferenze individuali da un modello esterno a SageMaker AI o ad AWS.

    Questo oggetto richiede le coppie chiave-valore aggiuntive: "modelIdentifier, una stringa che identifica il modello, e "text", l’inferenza del modello.

    Se specifichi una chiave "responses" in qualsiasi input del set di dati dei prompt personalizzato, questa deve essere specificata in tutti gli input.

L’esempio di codice json seguente mostra le coppie chiave-valore accettate in un set di dati dei prompt personalizzato che contiene i tuoi dati di inferenza.

{ "prompt": { "text": "Who invented the airplane?" }, "category": "Airplanes", "referenceResponse": { "text": "Orville and Wilbur Wright" }, "responses": // All inference must come from a single model [{ "modelIdentifier": "meta-textgeneration-llama-codellama-7b" , "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane." }] }

Per iniziare avvia Studio e scegli Valutazione del modello in Processi nel riquadro di navigazione primario.

Per aggiungere i tuoi dati di inferenza a un processo di valutazione del modello umano.
  1. Nella Fase 1. Specifica i dettagli del processo, aggiungi il nome del processo di valutazione del modello e una descrizione facoltativa.

  2. Nella Fase 2. Configura la valutazione, scegli Umano.

  3. Successivamente, in Scegli uno o più modelli da valutare, puoi scegliere il modello da utilizzare. Puoi utilizzare un modello JumpStart già implementato oppure un modello di fondazione JumpStart preaddestrato.

  4. Quindi, scegli un tipo di attività.

  5. A questo punto, puoi aggiungere le metriche di valutazione.

  6. Successivamente, in Set di dati dei prompt, seleziona la casella di controllo sotto Utilizza la tua inferenza per indicare che i prompt contengono le chiavi di risposta.

  7. Quindi, continua a configurare il tuo processo di valutazione del modello.

Per ulteriori informazioni su come vengono salvate le risposte del processo di valutazione del modello con lavoratori umani, consulta Informazioni sui risultati di un processo di valutazione umana.