

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Creazione di un processo di valutazione del modello automatico in Amazon Bedrock
<a name="evaluation-automatic"></a>

L’argomento fornisce indicazioni dettagliate per la creazione di un processo di valutazione del modello automatico.

**Topics**
+ [Fasi obbligatorie prima della creazione del primo processo di valutazione del modello automatica](model-evaluation-type-automatic.md)
+ [Tipi di attività di valutazione del modello in Amazon Bedrock](model-evaluation-tasks.md)
+ [Utilizzare set di dati di prompt per una valutazione dei modelli in Amazon Bedrock](model-evaluation-prompt-datasets.md)
+ [Avvio di un processo di valutazione automatica del modello in Amazon Bedrock](model-evaluation-jobs-management-create.md)
+ [Elenco dei processi di valutazione automatica del modello in Amazon Bedrock](model-evaluation-jobs-management-list.md)
+ [Arresto di un processo di valutazione del modello in Amazon Bedrock](model-evaluation-jobs-management-stop.md)
+ [Eliminazione di un processo di valutazione del modello in Amazon Bedrock](model-evaluation-jobs-management-delete.md)

# Fasi obbligatorie prima della creazione del primo processo di valutazione del modello automatica
<a name="model-evaluation-type-automatic"></a>

I processi di valutazione del modello automatica richiedono l’accesso alle seguenti risorse a livello di servizio. Utilizza gli argomenti collegati per ulteriori informazioni sulla configurazione.

**Requisiti di autorizzazione CORS (Cross Origin Resource Sharing)**  
Tutti i processi di valutazione del modello basati su console richiedono l’abilitazione delle autorizzazioni CORS (Cross Origin Resource Sharing) su qualsiasi bucket Amazon S3 specificato nel processo di valutazione del modello. Per ulteriori informazioni, consulta [Autorizzazioni CORS (Cross Origin Resource Sharing) richiesta per i bucket S3](model-evaluation-security-cors.md)

**Risorse di livello di servizio richieste per avviare un processo di valutazione del modello automatica**

1. Per avviare un processo di valutazione del modello automatica, devi accedere ad almeno un modello di fondazione Amazon Bedrock. Per ulteriori informazioni, consulta [Accesso ai modelli di fondazione Amazon Bedrock](model-access.md).

1. Per creare un processo di valutazione automatica del modello è necessario accedere all'[https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/)SDK o a un AWS SDK supportato. AWS Command Line Interface Per ulteriori informazioni sulle azioni e le risorse IAM richieste, consulta [Autorizzazioni della console richieste per creare un processo di valutazione del modello automatica](#base-for-automatic).

1. Quando viene avviato il processo di valutazione del modello, viene utilizzato un ruolo di servizio per eseguire azioni per conto dell’utente. Per ulteriori informazioni sulle azioni IAM richieste e sui requisiti delle policy di attendibilità, consulta [Requisiti del ruolo di servizio per i processi di valutazione del modello](automatic-service-roles.md).

1. Amazon Simple Storage Service: tutti i dati utilizzati e generati devono essere inseriti in un bucket Amazon S3 che si trova nello stesso Regione AWS in un processo di valutazione automatica del modello.

1. CORS (Cross Origin Resource Sharing): i processi di valutazione del modello automatica creati utilizzando la console Amazon Bedrock richiedono di specificare una configurazione CORS sul bucket S3. Per ulteriori informazioni, consulta [Autorizzazioni CORS (Cross Origin Resource Sharing) richiesta per i bucket S3](model-evaluation-security-cors.md).

1. Un ruolo di servizio IAM: per eseguire un processo di valutazione del modello automatica, è necessario creare un ruolo di servizio. Il ruolo di servizio consente ad Amazon Bedrock di eseguire azioni per tuo conto nel tuo AWS account. Per ulteriori informazioni, consulta [Requisiti del ruolo di servizio per i processi di valutazione del modello](automatic-service-roles.md). 

## Autorizzazioni della console richieste per creare un processo di valutazione del modello automatica
<a name="base-for-automatic"></a>

La seguente policy contiene il set minimo di azioni e risorse IAM in Amazon Bedrock e Amazon S3 necessarie per creare un processo di valutazione del modello *automatica* utilizzando la console Amazon Bedrock.

Nella policy, si consiglia di utilizzare l’elemento [Risorsa](https://docs.aws.amazon.com/IAM/latest/UserGuide/reference_policies_elements_resource.html) della policy JSON IAM per limitare l’accesso solo ai modelli e ai bucket richiesti per l’utente, il gruppo o il ruolo IAM.

------
#### [ JSON ]

****  

```
{
  "Version":"2012-10-17",		 	 	 
  "Statement": [
    {
      "Sid": "AllowPassingConsoleCreatedServiceRoles",
      "Effect": "Allow",
      "Action": [
        "iam:PassRole"
      ],
      "Resource": [
        "arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-IAM-Role-*"
      ],
      "Condition": {
        "StringEquals": {
          "iam:PassedToService": "bedrock.amazonaws.com"
        }
      }
    },
    {
      "Sid": "BedrockConsole",
      "Effect": "Allow",
      "Action": [
        "bedrock:CreateEvaluationJob",
        "bedrock:GetEvaluationJob",
        "bedrock:ListEvaluationJobs",
        "bedrock:StopEvaluationJob",
        "bedrock:GetCustomModel",
        "bedrock:ListCustomModels",
        "bedrock:CreateProvisionedModelThroughput",
        "bedrock:UpdateProvisionedModelThroughput",
        "bedrock:GetProvisionedModelThroughput",
        "bedrock:ListProvisionedModelThroughputs",
        "bedrock:GetImportedModel",
        "bedrock:ListImportedModels",
        "bedrock:ListMarketplaceModelEndpoints",
        "bedrock:ListTagsForResource",
        "bedrock:UntagResource",
        "bedrock:TagResource"
      ],
      "Resource": [
        "arn:aws:bedrock:us-west-2::foundation-model/model-id-of-foundational-model",
        "arn:aws:bedrock:us-west-2:111122223333:inference-profile/*",
        "arn:aws:bedrock:us-west-2:111122223333:provisioned-model/*",
        "arn:aws:bedrock:us-west-2:111122223333:imported-model/*"
      ]
    },
    {
      "Sid": "AllowConsoleS3AccessForModelEvaluation",
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:GetBucketCORS",
        "s3:ListBucket",
        "s3:ListBucketVersions",
        "s3:GetBucketLocation"
      ],
      "Resource": [
        "arn:aws:s3:::my_output_bucket",
        "arn:aws:s3:::input_datasets/prompts.jsonl"
      ]
    }
  ]
}
```

------

# Tipi di attività di valutazione del modello in Amazon Bedrock
<a name="model-evaluation-tasks"></a>

In un processo di valutazione del modello, per tipo di attività di valutazione si intende l’attività che si richiede al modello di eseguire sulla base delle informazioni contenute nei prompt. Puoi scegliere un tipo di attività per ogni processo di valutazione del modello.

La tabella seguente riassume i tipi di attività disponibili per le valutazioni automatiche del modello, i set di dati integrati e le metriche pertinenti per ogni tipo di attività.


**Set di dati integrati disponibili per processi di valutazione del modello automatica in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/model-evaluation-tasks.html)

**Topics**
+ [Generazione di testo generale per la valutazione del modello in Amazon Bedrock](model-evaluation-tasks-general-text.md)
+ [Sintesi testuale per la valutazione del modello in Amazon Bedrock](model-evaluation-tasks-text-summary.md)
+ [Domanda e risposta per la valutazione del modello in Amazon Bedrock](model-evaluation-tasks-question-answer.md)
+ [Classificazione del testo per la valutazione del modello in Amazon Bedrock](model-evaluation-text-classification.md)

# Generazione di testo generale per la valutazione del modello in Amazon Bedrock
<a name="model-evaluation-tasks-general-text"></a>

La generazione di testo generale è un’attività utilizzata dalle applicazioni che includono i chatbot. Le risposte generate da un modello a domande generali sono influenzate dalla correttezza, dalla pertinenza e dai bias contenuti nel testo utilizzato per addestrare il modello.

**Importante**  
Per quanto riguarda la generazione di testo generale, esiste un problema di sistema noto che impedisce ai modelli Cohere di completare con successo la valutazione della tossicità.

I seguenti set di dati integrati contengono prompt adatti all’utilizzo in attività generali di generazione di testo.

**Bias in Open-ended Language Generation Dataset (BOLD)**  
Il Bias in Open-ended Language Generation Dataset (BOLD) è un set di dati che valuta l’equità nella generazione di testo generale, concentrandosi su cinque domini: professione, genere, etnia, ideologie religiose e ideologie politiche. Contiene 23.679 diversi prompt per la generazione di testo.

**RealToxicityPrompts**  
RealToxicityPrompts è un set di dati che valuta la tossicità. Tenta di far sì che il modello generi un linguaggio razzista, sessista o altrimenti tossico. Questo set di dati contiene 23.679 diversi prompt per la generazione di testo.

**T-Rex: un allineamento su larga scala del linguaggio naturale con Knowledge Base Triples (TREX)**  
TREX è un set di dati composto da Knowledge Base Triples (KBT) estratti da Wikipedia. I KBT sono un tipo di struttura dati utilizzata nell’elaborazione del linguaggio naturale (NLP) e nella rappresentazione della conoscenza. Sono costituiti da un soggetto, un predicato e un oggetto, in cui il soggetto e l’oggetto sono collegati da una relazione. Un esempio di Knowledge Base Triple (KBT) è “George Washington era il presidente degli Stati Uniti”. Il soggetto è “George Washington”, il predicato è “era il presidente degli” e l’oggetto è “gli Stati Uniti”.

**WikiText2**  
WikiText2 è un set di dati HuggingFace che contiene prompt utilizzati nella generazione di testo generale.

La tabella seguente riepiloga le metriche calcolate e il set di dati integrato consigliato disponibili per i processi di valutazione automatica del modello. Per specificare correttamente i set di dati integrati disponibili utilizzando la AWS CLI o un SDK AWS supportato, utilizza i nomi dei parametri nella colonna *Set di dati integrati (API)*.


**Set di dati integrati disponibili per la generazione di testo generale in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/model-evaluation-tasks-general-text.html)

Per ulteriori informazioni su come viene calcolata la metrica per ogni set di dati integrato, consulta [Analisi dei report e delle metriche relativi ai processi di valutazione del modello in Amazon Bedrock](model-evaluation-report.md)

# Sintesi testuale per la valutazione del modello in Amazon Bedrock
<a name="model-evaluation-tasks-text-summary"></a>

La sintesi testuale viene utilizzata per attività quali la creazione di riepiloghi di notizie, documenti legali, articoli accademici, anteprime di contenuti e cura dei contenuti. L'ambiguità, la coerenza, il bias e la fluidità del testo utilizzato per addestrare il modello, nonché la perdita di informazioni, l'accuratezza, la pertinenza o la mancata corrispondenza del contesto possono influenzare la qualità delle risposte.

**Importante**  
Per quanto riguarda la sintesi testuale, esiste un problema di sistema noto che impedisce ai modelli Cohere di completare con successo la valutazione della tossicità.

Il seguente set di dati integrato è supportato per l’uso con il tipo di attività di riepilogo.

**Gigaword**  
Il set di dati Gigaword è costituito da titoli di articoli di notizie. Questo set di dati viene utilizzato nelle attività di sintesi testuale.

La tabella seguente riepiloga le metriche calcolate e il set di dati integrato consigliato. Per specificare correttamente i set di dati integrati disponibili utilizzando la AWS CLI o un SDK AWS supportato, utilizza i nomi dei parametri nella colonna *Set di dati integrati (API)*.


**Set di dati integrati disponibili per la sintesi testuale in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/model-evaluation-tasks-text-summary.html)

Per ulteriori informazioni su come viene calcolata la metrica per ogni set di dati integrato, consulta [Analisi dei report e delle metriche relativi ai processi di valutazione del modello in Amazon Bedrock](model-evaluation-report.md)

# Domanda e risposta per la valutazione del modello in Amazon Bedrock
<a name="model-evaluation-tasks-question-answer"></a>

Domanda e risposta vengono utilizzate per attività quali la generazione di risposte automatiche dall’help desk, il recupero di informazioni e l’e-learning. Se il testo utilizzato per addestrare il modello di fondazione contiene problemi quali dati incompleti o imprecisi, sarcasmo o ironia, la qualità delle risposte può peggiorare.

**Importante**  
Per domanda e risposta esiste un problema di sistema noto che impedisce ai modelli Cohere di completare con successo una valutazione della tossicità.

I seguenti set di dati integrati sono consigliati per l’uso con il tipo di attività domanda e risposta.

**BoolQ**  
BoolQ è un set di dati composto da coppie di yes/no domande e risposte. Il prompt contiene un breve brano e quindi una domanda sul brano. Questo set di dati è consigliato per l’uso con tipi di attività di domanda e risposta.

**Natural questions**  
Natural questions è un set di dati composto da domande reali degli utenti inviate alla ricerca Google.

**TriviaQA**  
TriviaQA è un set di dati che contiene oltre 650.000. question-answer-evidence-triples Questo set di dati viene utilizzato nelle attività di domanda e risposta.

La tabella seguente riepiloga le metriche calcolate e il set di dati integrato consigliato. *Per specificare correttamente i set di dati integrati disponibili utilizzando o un AWS SDK supportato AWS CLI, utilizza i nomi dei parametri nella colonna Set di dati integrati (API).*


**Set di dati integrati disponibili per il tipo di attività di domanda e risposta in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/model-evaluation-tasks-question-answer.html)

Per ulteriori informazioni su come viene calcolata la metrica per ogni set di dati integrato, consultare [Analisi dei report e delle metriche relativi ai processi di valutazione del modello in Amazon Bedrock](model-evaluation-report.md)

# Classificazione del testo per la valutazione del modello in Amazon Bedrock
<a name="model-evaluation-text-classification"></a>

La classificazione del testo viene utilizzata per suddividere il testo in categorie predefinite. Le applicazioni che utilizzano la classificazione del testo includono i suggerimenti dei contenuti, il rilevamento dello spam, l'identificazione della lingua e l'analisi dei trend sui social media. Classi sbilanciate, dati ambigui, dati confusi e bias nell'etichettatura sono alcuni dei problemi che possono causare errori nella classificazione del testo.

**Importante**  
Per quanto riguarda la classificazione del testo, esiste un problema di sistema noto che impedisce ai modelli Cohere di completare con successo la valutazione della tossicità.

I seguenti set di dati integrati sono consigliati per l'uso con il tipo di attività classificazione del testo.

**Women's E-Commerce Clothing Reviews**  
Women's E-Commerce Clothing Reviews è un set di dati che contiene recensioni di abbigliamento scritte dai clienti. Questo set di dati viene utilizzato nelle attività di classificazione del testo. 

La tabella seguente riepiloga le metriche calcolate e i set di dati integrati consigliati. Per specificare correttamente i set di dati integrati disponibili utilizzando la AWS CLI o un SDK AWS supportato, utilizza i nomi dei parametri nella colonna *Set di dati integrati (API)*.




**Set di dati integrati disponibili in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/model-evaluation-text-classification.html)

Per ulteriori informazioni su come viene calcolata la metrica per ogni set di dati integrato, consulta [Analisi dei report e delle metriche relativi ai processi di valutazione del modello in Amazon Bedrock](model-evaluation-report.md)

# Utilizzare set di dati di prompt per una valutazione dei modelli in Amazon Bedrock
<a name="model-evaluation-prompt-datasets"></a>

Per creare un processo di valutazione automatica dei modelli, è necessario specificare un set di dati di prompt. I prompt vengono quindi utilizzati durante l’inferenza con il modello selezionato per la valutazione. Amazon Bedrock fornisce set di dati integrati che possono essere utilizzati nelle valutazioni del modello automatiche, oppure puoi portare il tuo set di dati dei prompt.

Utilizza le seguenti sezioni per saperne di più sui set di dati dei prompt integrati disponibili e sulla creazione di set di dati dei prompt personalizzati.

## Utilizzare set di dati di prompt integrati per la valutazione automatica dei modelli in Amazon Bedrock
<a name="model-evaluation-prompt-datasets-builtin"></a>

Amazon Bedrock fornisce set di dati dei prompt integrati che possono essere utilizzati nelle valutazioni del modello automatiche, oppure puoi portare il tuo set di dati dei prompt. Ogni set di dati integrato è basato su un set di dati open source. Abbiamo sottoposto a downsampling casuale ogni set di dati open source per includere solo 100 prompt.

Quando crei un processo di valutazione del modello automatica e scegli un **Tipo di attività**, Amazon Bedrock ti fornisce un elenco di metriche consigliate. Per ogni metrica, Amazon Bedrock fornisce anche set di dati integrati consigliati. Per ulteriori informazioni sui tipi di attività disponibili, consulta [Tipi di attività di valutazione del modello in Amazon Bedrock](model-evaluation-tasks.md).

**Bias in Open-ended Language Generation Dataset (BOLD)**  
Il Bias in Open-ended Language Generation Dataset (BOLD) è un set di dati che valuta l’equità nella generazione di testo generale, concentrandosi su cinque domini: professione, genere, etnia, ideologie religiose e ideologie politiche. Contiene 23.679 diversi prompt per la generazione di testo.

**RealToxicityPrompts**  
RealToxicityPrompts è un set di dati che valuta la tossicità. Tenta di far sì che il modello generi un linguaggio razzista, sessista o altrimenti tossico. Questo set di dati contiene 23.679 diversi prompt per la generazione di testo.

**T-Rex: un allineamento su larga scala del linguaggio naturale con Knowledge Base Triples (TREX)**  
TREX è un set di dati composto da Knowledge Base Triples () estratte da Wikipedia. KBTs KBTs sono un tipo di struttura dati utilizzata nell'elaborazione del linguaggio naturale (NLP) e nella rappresentazione della conoscenza. Sono costituiti da un soggetto, un predicato e un oggetto, in cui il soggetto e l’oggetto sono collegati da una relazione. Un esempio di Knowledge Base Triple (KBT) è “George Washington era il presidente degli Stati Uniti”. Il soggetto è “George Washington”, il predicato è “era il presidente degli” e l’oggetto è “gli Stati Uniti”.

**WikiText2**  
WikiText2 è un HuggingFace set di dati che contiene i prompt utilizzati nella generazione generale di testo.

**Gigaword**  
Il set di dati Gigaword è costituito da titoli di articoli di notizie. Questo set di dati viene utilizzato nelle attività di sintesi testuale.

**BoolQ**  
BoolQ è un set di dati composto da coppie di domande e risposte. yes/no Il prompt contiene un breve brano e quindi una domanda sul brano. Questo set di dati è consigliato per l’uso con tipi di attività di domanda e risposta.

**Natural questions **  
Natural question è un set di dati composto da domande reali degli utenti inviate alla ricerca Google.

**TriviaQA**  
TriviaQA è un set di dati che contiene oltre 650.000. question-answer-evidence-triples Questo set di dati viene utilizzato nelle attività di domande e risposte.

**Women's E-Commerce Clothing Reviews**  
Women's E-Commerce Clothing Reviews è un set di dati che contiene recensioni di abbigliamento scritte dai clienti. Questo set di dati viene utilizzato nelle attività di classificazione del testo. 

Nella tabella seguente, puoi vedere l'elenco dei set di dati disponibili raggruppati per tipo di attività. Per ulteriori informazioni su come vengono calcolate le metriche automatiche, consulta [Esaminare le metriche per un processo di valutazione automatizzata dei modelli in Amazon Bedrock (console)](model-evaluation-report-programmatic.md). 


**Set di dati integrati disponibili per processi di valutazione del modello automatica in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/model-evaluation-prompt-datasets.html)

Per ulteriori informazioni sui requisiti per la creazione ed esempi di set di dati dei prompt personalizzati, consulta [Utilizzare set di dati di prompt personalizzati per la valutazione dei modelli in Amazon Bedrock](#model-evaluation-prompt-datasets-custom).

## Utilizzare set di dati di prompt personalizzati per la valutazione dei modelli in Amazon Bedrock
<a name="model-evaluation-prompt-datasets-custom"></a>

Puoi creare un set di dati di prompt personalizzato nei processi di valutazione automatica dei modelli. I set di dati dei prompt personalizzati devono essere archiviati in Amazon S3, utilizzare il formato di riga JSON e utilizzare l’estensione del file `.jsonl`. Ogni riga deve essere un oggetto JSON valido. Nel set di dati possono essere presenti fino a 1.000 prompt per processo di valutazione automatica.

Per i processi creati utilizzando la console, devi aggiornare la configurazione Cross Origin Resource Sharing (CORS) sul bucket S3. Per ulteriori informazioni sulle autorizzazioni CORS necessarie, consulta [Autorizzazioni CORS (Cross Origin Resource Sharing) richiesta per i bucket S3](model-evaluation-security-cors.md). 

È necessario utilizzare le seguenti coppie chiave-valore in un set di dati personalizzato.
+ `prompt`: necessario per indicare l'input per le seguenti attività:
  + Il prompt a cui il modello deve rispondere nella generazione di testo generale.
  + La domanda a cui il modello deve rispondere nel tipo di attività domande e risposte.
  + Il testo che il modello deve riepilogare nell'attività di riepilogo del testo.
  + Il testo che il modello deve classificare nelle attività di classificazione.
+ `referenceResponse`: per indicare la risposta di verità fondamentale rispetto alla quale il modello viene valutato per i seguenti tipi di attività:
  + La risposta a tutti i prompt nelle attività di domande e risposte.
  + La risposta a tutte le valutazioni di accuratezza e robustezza.
+ `category`: (opzionale) genera punteggi di valutazione riportati per ogni categoria. 

Ad esempio, l’accuratezza richiede la domanda da porre e una risposta da confrontare con la risposta del modello. In questo esempio si utilizza la chiave `prompt` con il valore contenuto nella domanda e la chiave `referenceResponse` con il valore contenuto nella risposta come segue.

```
{
  "prompt": "Bobigny is the capital of",
  "referenceResponse": "Seine-Saint-Denis",
  "category": "Capitals"
}
```

L'esempio precedente è una singola riga di un file di input JSON che verrà inviato al modello come richiesta di inferenza. Il modello verrà richiamato per ogni record di questo tipo nel set di dati JSON. Il seguente esempio di input di dati riguarda un'attività di risposta a domande che utilizza una chiave `category` opzionale per la valutazione.

```
{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"}
{"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"}
{"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}
```

# Avvio di un processo di valutazione automatica del modello in Amazon Bedrock
<a name="model-evaluation-jobs-management-create"></a>

È possibile creare un processo di valutazione automatica del Console di gestione AWS modello utilizzando o un AWS SDK supportato. AWS CLI In un processo di valutazione del modello automatica, il modello selezionato esegue l’inferenza utilizzando i prompt di un set di dati integrato supportato o un set di dati dei prompt personalizzato. Per ogni processo è inoltre necessario selezionare un tipo di attività. Il tipo di attività fornisce alcune metriche consigliate e set di dati dei prompt integrati. Per ulteriori informazioni sui tipi di attività e sulle metriche disponibili, consulta [Tipi di attività di valutazione del modello in Amazon Bedrock](model-evaluation-tasks.md).

I seguenti esempi mostrano come creare un processo di valutazione automatica del modello utilizzando la console Amazon Bedrock AWS CLI, SDK for Python.

Tutti i processi di valutazione del modello automatica richiedono la creazione di un ruolo di servizio IAM. Per ulteriori informazioni sui requisiti IAM per la configurazione di un processo di valutazione del modello, consulta [Requisiti del ruolo di servizio per i processi di valutazione del modello](model-evaluation-security-service-roles.md).

Negli esempi seguenti viene mostrato come creare un processo di valutazione del modello automatica. All’interno dell’API, puoi inoltre includere un [profilo di inferenza](cross-region-inference.md) nel processo specificandone l’ARN nel campo `modelIdentifier`.

------
#### [ Amazon Bedrock console ]

Utilizza la seguente procedura per creare un processo di valutazione del modello utilizzando la console Amazon Bedrock. Per completare correttamente questa procedura, assicurati che l’utente, il gruppo o il ruolo IAM disponga delle autorizzazioni sufficienti per accedere alla console. Per ulteriori informazioni, consulta [Autorizzazioni della console richieste per creare un processo di valutazione del modello automatica](model-evaluation-type-automatic.md#base-for-automatic). 

Inoltre, tutti i set di dati dei prompt personalizzati che desideri specificare nel processo di valutazione del modello devono avere le autorizzazioni CORS richieste aggiunte al bucket Amazon S3. Per ulteriori informazioni sull’aggiunta delle autorizzazioni CORS richieste, consulta [Autorizzazioni CORS (Cross Origin Resource Sharing) richiesta per i bucket S3](model-evaluation-security-cors.md).

**Per creare un processo di valutazione del modello automatica**

1. Apri la console Amazon Bedrock: [https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. Nel riquadro di navigazione seleziona **Valutazione del modello**.

1. Nella sceda **Sviluppa una valutazione**, in **Automatico** scegli **Crea una valutazione automatica**.

1. Nella pagina **Crea una valutazione automatica**, fornisci le seguenti informazioni

   1. **Nome di valutazione**: assegna al processo di valutazione del modello un nome che descriva il processo. Viene mostrato nell’elenco dei processi di valutazione del modello. Il nome deve essere univoco nell’account in una Regione AWS.

   1. **Descrizione** (facoltativa): fornisci una descrizione facoltativa.

   1. **Modelli**: scegli il modello che desideri utilizzare nel processo di valutazione del modello.

      Per ulteriori informazioni sui modelli disponibili e su come accedervi in Amazon Bedrock, consulta [Accesso ai modelli di fondazione Amazon Bedrock](model-access.md).

   1. (Facoltativo) Per modificare la configurazione dell'inferenza, scegli **Aggiorna**.

      La modifica della configurazione di inferenza cambia le risposte generate dai modelli selezionati. Per ulteriori informazioni sui parametri di inferenza disponibili, consulta [Parametri di richiesta di inferenza e campi di risposta per i modelli di fondazione](model-parameters.md).

   1. **Tipo di attività**: scegli il tipo di attività che desideri che il modello tenti di eseguire durante il processo di valutazione del modello.

   1. **Metriche e set di dati**: l'elenco delle metriche disponibili e dei set di dati dei prompt integrati cambia in base all'attività selezionata. Puoi scegliere dall'elenco **Set di dati integrati disponibili** oppure puoi scegliere **Usa il tuo set di dati dei prompt**. Se scegli di utilizzare un set di dati dei prompt personalizzato, inserisci l’URI S3 esatto del relativo file o scegli **Sfoglia S3** per cercare il tuo set di dati dei prompt.

   1. **Risultati della valutazione**: specifica l’URI S3 della directory in cui desideri salvare i risultati. Scegli **Sfoglia S3** per cercare una posizione in Amazon S3.

   1. (Facoltativo) Per abilitare l’utilizzo di una chiave gestita dal cliente, scegli **Personalizza le impostazioni di crittografia (avanzate)**. Quindi, fornisci l’ARN della chiave AWS KMS che desideri utilizzare.

   1. **Ruolo IAM di Amazon Bedrock**: scegli **Usa un ruolo esistente** per utilizzare il ruolo di servizio IAM che dispone già delle autorizzazioni richieste oppure scegli **Crea un nuovo ruolo** per creare un nuovo ruolo di servizio IAM.

1. Quindi scegli **Create (Crea)**.

Quando lo stato del processo cambia in **Completato**, puoi visualizzare la scheda del report del processo.

------
#### [ SDK for Python ]

Il seguente esempio crea un processo di valutazione automatica utilizzando Python.

```
import boto3
client = boto3.client('bedrock')

job_request = client.create_evaluation_job(
    jobName="api-auto-job-titan",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/role-name",
    inferenceConfig={
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
                    "inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"
                }

            }
        ]

    },
    outputDataConfig={
        "s3Uri":"s3://amzn-s3-demo-bucket-model-evaluations/outputs/"
    },
    evaluationConfig={
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "QuestionAndAnswer",
                    "dataset": {
                        "name": "Builtin.BoolQ"
                    },
                    "metricNames": [
                        "Builtin.Accuracy",
                        "Builtin.Robustness"
                    ]
                }
            ]
        }
    }
)

print(job_request)
```

------
#### [ AWS CLI ]

In AWS CLI, puoi usare il `help` comando per vedere quali parametri sono obbligatori e quali parametri sono facoltativi quando si specifica `create-evaluation-job` in. AWS CLI

```
aws bedrock create-evaluation-job help
```

```
aws bedrock create-evaluation-job \
--job-name 'automatic-eval-job-cli-001' \
--role-arn 'arn:aws:iam::111122223333:role/role-name' \
--evaluation-config '{"automated": {"datasetMetricConfigs": [{"taskType": "QuestionAndAnswer","dataset": {"name": "Builtin.BoolQ"},"metricNames": ["Builtin.Accuracy","Builtin.Robustness"]}]}}' \
--inference-config '{"models": [{"bedrockModel": {"modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1","inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"}}]}' \
--output-data-config '{"s3Uri":"s3://automatic-eval-jobs/outputs"}'
```

------

# Elenco dei processi di valutazione automatica del modello in Amazon Bedrock
<a name="model-evaluation-jobs-management-list"></a>

Puoi elencare gli attuali processi di valutazione automatica del modello che hai già creato utilizzando la AWS CLI o un SDK AWS supportato. Nella console Amazon Bedrock, puoi anche visualizzare una tabella contenente gli attuali processi di valutazione del modello.

Gli esempi seguenti mostrano come trovare i processi di valutazione del modello utilizzando la Console di gestione AWS, la AWS CLI e l’SDK per Python.

------
#### [ Amazon Bedrock console ]

1. Apri la console Amazon Bedrock all'indirizzo [https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. Nel riquadro di navigazione seleziona **Valutazione del modello**.

1. Nella scheda **Processi di valutazione del modello**, puoi trovare una tabella che elenca i processi di valutazione del modello che hai già creato.

------
#### [ AWS CLI ]

NellaAWS CLI, puoi utilizzare il comando `help` per visualizzare i parametri obbligatori e quelli facoltativi durante l’utilizzo di `list-evaluation-jobs`.

```
aws bedrock list-evaluation-jobs help
```

Di seguito è riportato un esempio di utilizzo di `list-evaluation-jobs`, specificando che vengano restituiti al massimo 5 processi. Per impostazione predefinita, i processi vengono restituiti in ordine decrescente a partire dal momento in cui sono stati avviati.

```
aws bedrock list-evaluation-jobs --max-items 5
```

------
#### [ SDK for Python ]

Gli esempi seguenti mostrano come utilizzare l’AWS SDK per Python per trovare un processo di valutazione del modello creato in precedenza. 

```
import boto3
client = boto3.client('bedrock')

job_request = client.list_evaluation_jobs(maxResults=20)

print (job_request)
```

------

# Arresto di un processo di valutazione del modello in Amazon Bedrock
<a name="model-evaluation-jobs-management-stop"></a>

È possibile arrestare un processo di valutazione del modello attualmente in fase di elaborazione utilizzando la Console di gestione AWS, la AWS CLI o un SDK AWS supportato.

Gli esempi seguenti mostrano come arrestare un processo di valutazione del modello utilizzando la Console di gestione AWS, la AWS CLI e l’SDK per Python.

------
#### [ Amazon Bedrock console ]

L’esempio seguente mostra come arrestare un processo di valutazione del modello utilizzando la Console di gestione AWS.

1. Apri la console Amazon Bedrock all'indirizzo [https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. Nel riquadro di navigazione seleziona **Valutazione del modello**.

1. Nella scheda **Processi di valutazione del modello**, puoi trovare una tabella che elenca i processi di valutazione del modello che hai già creato.

1. Seleziona il pulsante di opzione accanto al nome del processo.

1. Quindi, seleziona **Interrompi la valutazione**.

------
#### [ SDK for Python ]

L’esempio seguente mostra come arrestare un processo di valutazione del modello utilizzando l’SDK per Python.

```
import boto3
client = boto3.client('bedrock')
response = client.stop_evaluation_job(
	## The ARN of the model evaluation job you want to stop.
	jobIdentifier='arn:aws:bedrock:us-west-2:444455556666:evaluation-job/fxaqujhttcza'
)

print(response)
```

------
#### [ AWS CLI ]

Nella AWS CLI, puoi utilizzare il comando `help` per verificare quali sono i parametri obbligatori e quali quelli facoltativi quando specifichi `add-something` nella AWS CLI.

```
aws bedrock create-evaluation-job help
```

L’esempio seguente mostra come arrestare un processo di valutazione del modello utilizzando la AWS CLI.

```
aws bedrock stop-evaluation-job --job-identifier arn:aws:bedrock:us-west-2:444455556666:evaluation-job/fxaqujhttcza
```

------

# Eliminazione di un processo di valutazione del modello in Amazon Bedrock
<a name="model-evaluation-jobs-management-delete"></a>

Puoi eliminare un processo di valutazione del modello utilizzando la console Amazon Bedrock o utilizzando l’operazione [BatchDeleteEvaluationJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_BatchDeleteEvaluationJob.html) con la AWS CLI o un SDK AWS supportato. 

Prima di poter eliminare un processo di valutazione del modello, lo stato del processo deve essere `FAILED` `COMPLETED` o `STOPPED`. Puoi ottenere lo stato corrente di un processo dalla console Amazon Bedrock o chiamando [ListEvaluationJobs](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ListEvaluationJobs.html). Per ulteriori informazioni, consulta [Elenco dei processi di valutazione automatica del modello in Amazon BedrockVisualizzazione di un elenco dei processi di valutazione del modello che utilizzano lavoratori umani in Amazon Bedrock](model-evaluation-jobs-management-list.md). 

Puoi eliminare fino a 25 processi di valutazione del modello alla volta con la console e con l’operazione `BatchDeleteEvaluationJob`. Se è necessario eliminare altri processi, ripeti la procedura o la chiamata `BatchDeleteEvaluationJob` della console.

Se elimini un processo di valutazione del modello con l’operazione `BatchDeleteEvaluationJob`, hai bisogno dei nomi della risorsa Amazon (ARN) dei modelli che desideri eliminare. Per informazioni su come ottenere l’ARN di un modello, consulta [Elenco dei processi di valutazione automatica del modello in Amazon BedrockVisualizzazione di un elenco dei processi di valutazione del modello che utilizzano lavoratori umani in Amazon Bedrock](model-evaluation-jobs-management-list.md). 

Quando elimini un processo di valutazione del modello, tutte le risorse in Amazon Bedrock e Amazon SageMaker AI vengono rimosse. Qualsiasi processo di valutazione del modello salvato nei bucket Amazon S3 rimane invariato. Inoltre, per i processi di valutazione del modello che utilizzano lavoratori umani, l’eliminazione di un processo di valutazione del modello non elimina la forza lavoro o il team di lavoro configurato in Amazon Cognito o SageMaker AI.

Nelle sezioni seguenti sono riportati alcuni esempi di come eliminare un processo di valutazione del modello.

------
#### [ Amazon Bedrock console ]

Utilizza la seguente procedura per esaminare un processo di valutazione del modello utilizzando la console Amazon Bedrock. Per completare correttamente questa procedura, assicurati che l’utente, il gruppo o il ruolo IAM disponga delle autorizzazioni sufficienti per accedere alla console. Per ulteriori informazioni, consulta [Autorizzazioni della console richieste per creare un processo di valutazione del modello automatica](model-evaluation-type-automatic.md#base-for-automatic).

**Come eliminare più processi di valutazione del modello.**

1. Apri la console Amazon Bedrock all’indirizzo [https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/)

1. Nel riquadro di navigazione seleziona **Valutazione del modello**.

1. Nella scheda **Model Evaluation Jobs**, utilizza la tabella per trovare i processi di valutazione del modello che desideri eliminare e selezionali utilizzando la casella di controllo accanto al nome del processo. Puoi selezionarne fino a 25 processi.

1. Scegli **Elimina** per eliminare i processi di valutazione del modello.

1. Se è necessario eliminare altri processi di valutazione del modello, ripeti le fasi 3 e 4.

------
#### [ AWS CLI ]

In AWS CLI, puoi utilizzare il comando `help` per visualizzare i parametri obbligatori e quali parametri sono facoltativi durante l’utilizzo di `batch-delete-evaluation-job`.

```
aws bedrock batch-delete-evaluation-job help
```

Di seguito è riportato un esempio di utilizzo del processo `batch-delete-evaluation-job` e di specifica dell’eliminazione di 2 processi di valutazione del modello. Il parametro `job-identifiers` viene utilizzato per specificare un elenco di ARN per i processi di valutazione del modello da eliminare. Puoi eliminare fino a 25 processi di valutazione del modello in una singola chiamata a `batch-delete-evaluation-job`. Se è necessario eliminare più processi, effettua ulteriori chiamate a `batch-delete-evaluation-job`.

```
aws bedrock batch-delete-evaluation-job \
--job-identifiers arn:aws:bedrock:us-east-1:111122223333:evaluation-job/rmqp8zg80rvg arn:aws:bedrock:us-east-1:111122223333:evaluation-job/xmfp9zg204fdk
```

Dopo l’invio riceverai la risposta seguente.

```
{
	"evaluationJobs": [
		{
			"jobIdentifier": "rmqp8zg80rvg",
			"jobStatus": "Deleting"
		},
		{
			"jobIdentifier": "xmfp9zg204fdk",
			"jobStatus": "Deleting"
		}

	],
	"errors": []
}
```

------
#### [ SDK for Python ]

Gli esempi seguenti mostrano come utilizzare l’AWS SDK per Python per eliminare un processo di valutazione del modello. Utilizza il parametro `jobIdentifiers` per specificare un elenco di ARN per i processi di valutazione del modello da eliminare. Puoi eliminare fino a 25 processi di valutazione del modello in una singola chiamata a `BatchDeleteEvaluationJob`. Se è necessario eliminare più processi, effettua ulteriori chiamate a `BatchDeleteEvaluationJob`.

```
import boto3
client = boto3.client('bedrock')

job_request = client.batch_delete_model_evaluation_job(jobIdentifiers=["arn:aws:bedrock:us-east-1:111122223333:evaluation-job/rmqp8zg80rvg", "arn:aws:bedrock:us-east-1:111122223333:evaluation-job/xmfp9zg204fdk"])

print (job_request)
```

------