

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Analisi dei report e delle metriche relativi ai processi di valutazione del modello in Amazon Bedrock
<a name="model-evaluation-report"></a>

I risultati di un processo di valutazione del modello sono presentati in un report e includono metriche chiave che possono aiutarti a valutare le prestazioni e l’efficacia del modello. I risultati di un processo di valutazione del modello sono disponibili tramite la console Amazon Bedrock oppure possono essere scaricati dal bucket Amazon S3 specificato al momento della creazione del processo.

Una volta che lo stato del processo è passato a **Pronto**, puoi trovare il bucket S3 che hai specificato durante la creazione del processo. Per farlo, vai alla tabella **Valutazioni del modello** nella home page di **Valutazione del modello** e selezionala.

Utilizza i seguenti argomenti per scoprire come accedere ai report di valutazione del modello e come salvare i risultati di un processo di valutazione del modello in Amazon S3.

**Topics**
+ [Esaminare le metriche per un processo di valutazione automatizzata dei modelli in Amazon Bedrock (console)](model-evaluation-report-programmatic.md)
+ [Esaminare un processo di valutazione umana dei modelli in Amazon Bedrock (console)](model-evaluation-report-human-customer.md)
+ [Introduzione al salvataggio dei risultati del processo di valutazione del modello in Amazon S3](model-evaluation-report-s3.md)

# Esaminare le metriche per un processo di valutazione automatizzata dei modelli in Amazon Bedrock (console)
<a name="model-evaluation-report-programmatic"></a>

Puoi rivedere le metriche illustrate in un report per un processo di valutazione automatica dei modelli utilizzando la console Amazon Bedrock.

Nella scheda di valutazione del modello, vedrai il numero totale di prompt nel set di dati che hai fornito o selezionato e quanti di questi prompt hanno ricevuto risposte. Se il numero di risposte è inferiore al numero di richieste di input, assicurati di controllare il file di output dei dati nel tuo bucket Amazon S3. È possibile che il prompt abbia causato un errore nel modello e che non sia stata recuperata alcuna inferenza. Nei calcoli metrici verranno utilizzate solo le risposte del modello.

Utilizza la seguente procedura per esaminare un processo di valutazione del modello automatica sulla console Amazon Bedrock.

1. Apri la console Amazon Bedrock.

1. Nel riquadro di navigazione seleziona **Valutazione del modello**.

1. Successivamente, nella tabella **Valutazioni del modello**, trova il nome del processo di valutazione del modello automatizzata che desideri esaminare. Quindi, selezionalo.

In tutte le metriche relative alla robustezza semantica, Amazon Bedrock modifica i prompt nei seguenti modi: converte il testo in lettere minuscole, errori di battitura sulla tastiera, converte numeri in parole, modifiche casuali in lettere maiuscole e spazi bianchi casuali. addition/deletion 

Dopo aver aperto il report di valutazione del modello, puoi visualizzare le metriche riepilogate e il **Riepilogo della configurazione del processo**.

Per ogni metrica e set di dati dei prompt specificati al momento della creazione del processo, vengono visualizzati una scheda e un valore per ogni set di dati specificato per quella metrica. Il modo in cui viene calcolato questo valore cambia in base al tipo di attività e alle metriche selezionate.

**Come viene calcolata ogni metrica disponibile quando è applicata al tipo di attività generale di generazione di testo**
+ **Accuratezza**: per questa metrica, il valore viene calcolato utilizzando il punteggio di conoscenza del mondo reale (punteggio RWK). Il punteggio RWK esamina la capacità del modello di codificare la conoscenza effettiva del mondo reale. Un punteggio RWK elevato indica che il modello è accurato.
+ **Robustezza**: per questa metrica, il valore viene calcolato utilizzando la robustezza semantica. Tale valore viene calcolato utilizzando il tasso di errore delle parole. La robustezza semantica misura quanto cambia l'output del modello a seguito di piccole perturbazioni di conservazione semantica nell'input. La robustezza a fronte di tali perturbazioni è una proprietà auspicabile, e quindi un punteggio di robustezza semantica basso indica che il modello sta funzionando bene.

  I tipi di perturbazione che prenderemo in considerazione sono: conversione del testo in lettere minuscole, errori di battitura da tastiera, conversione di numeri in parole, modifiche casuali in lettere maiuscole e casuali addition/deletion di spazi bianchi. Ogni prompt nel set di dati viene perturbato circa 5 volte. Quindi, ogni risposta perturbata viene inviata per l'inferenza e utilizzata per calcolare automaticamente i punteggi di robustezza.
+ **Tossicità**: per questa metrica, il valore viene calcolato utilizzando la tossicità dell'algoritmo di disintossicazione. Un valore di tossicità basso indica che il modello selezionato non produce grandi quantità di contenuto tossico. [Per saperne di più sull'algoritmo di disintossicazione e su come viene calcolata la tossicità, consulta l'algoritmo di disintossicazione su.](https://github.com/unitaryai/detoxify) GitHub

**Come viene calcolata ogni metrica disponibile quando è applicata al tipo di attività di riepilogo del testo**
+ **Accuratezza**: per questa metrica, il valore viene calcolato utilizzando il punteggio BERT. Il punteggio BERT viene calcolato utilizzando incorporamenti contestuali pre-addestrati dai modelli BERT. Mette in associazione le parole nelle frasi candidate e di riferimento per similarità del coseno.
+ **Robustezza**: per questa metrica, il valore calcolato è una percentuale. È stato calcolato prendendo (Delta BERTScore /) x 100. BERTScore Delta BERTScore è la differenza nei punteggi BERT tra un prompt perturbato e il prompt originale nel set di dati. Ogni prompt nel set di dati viene perturbato circa 5 volte. Quindi, ogni risposta perturbata viene inviata per l'inferenza e utilizzata per calcolare automaticamente i punteggi di robustezza. Un punteggio più basso indica che il modello selezionato è più robusto.
+ **Tossicità**: per questa metrica, il valore viene calcolato utilizzando la tossicità dell'algoritmo di disintossicazione. Un valore di tossicità basso indica che il modello selezionato non produce grandi quantità di contenuto tossico. [Per saperne di più sull'algoritmo di disintossicazione e vedere come viene calcolata la tossicità, consulta l'algoritmo di disintossicazione su.](https://github.com/unitaryai/detoxify) GitHub

**Come viene calcolata ogni metrica disponibile quando applicata al tipo di attività domande e risposte**
+ **Accuratezza**: per questa metrica, il valore viene calcolato utilizzando il punteggio F1. Il punteggio F1 viene calcolato dividendo il punteggio di precisione (il rapporto tra i pronostici corretti e tutti i pronostici) per il punteggio di richiamo (il rapporto tra le previsioni corrette e il numero totale di previsioni pertinenti). Il punteggio F1 varia da 0 a 1, con valori più alti che indicano prestazioni migliori.
+ **Robustezza**: per questa metrica, il valore calcolato è una percentuale. Viene calcolato prendendo (Delta F1/F1) x 100. Delta F1 è la differenza nei punteggi F1 tra un prompt perturbato e il prompt originale nel set di dati. Ogni prompt nel set di dati viene perturbato circa 5 volte. Quindi, ogni risposta perturbata viene inviata per l'inferenza e utilizzata per calcolare automaticamente i punteggi di robustezza. Un punteggio più basso indica che il modello selezionato è più robusto.
+ **Tossicità**: per questa metrica, il valore viene calcolato utilizzando la tossicità dell'algoritmo di disintossicazione. Un valore di tossicità basso indica che il modello selezionato non produce grandi quantità di contenuto tossico. [Per ulteriori informazioni sull'algoritmo di disintossicazione e su come viene calcolata la tossicità, consulta l'algoritmo di disintossicazione su.](https://github.com/unitaryai/detoxify) GitHub

**Come viene calcolata ogni metrica disponibile quando applicata al tipo di attività di classificazione del testo**
+ **Accuratezza**: per questa metrica, il valore viene calcolato è l'accuratezza. L'accuratezza è un punteggio che confronta la classe prevista con la relativa etichetta di verità fondamentale. Una maggiore precisione indica che il modello sta classificando correttamente il testo in base all'etichetta di verità fondamentale fornita.
+ **Robustezza**: per questa metrica, il valore calcolato è una percentuale. Viene calcolato considerando (punteggio di accuratezza della classificazione Delta/punteggio di accuratezza della classificazione) x 100. Il punteggio di accuratezza della classificazione Delta è la differenza tra il punteggio di accuratezza della classificazione del prompt perturbato e il prompt di input originale. Ogni prompt nel set di dati viene perturbato circa 5 volte. Quindi, ogni risposta perturbata viene inviata per l'inferenza e utilizzata per calcolare automaticamente i punteggi di robustezza. Un punteggio più basso indica che il modello selezionato è più robusto.

# Esaminare un processo di valutazione umana dei modelli in Amazon Bedrock (console)
<a name="model-evaluation-report-human-customer"></a>

Puoi esaminare i dati per una valutazione umana illustrata in un report utilizzando la console Amazon Bedrock.

Nella scheda di valutazione del modello, vedrai il numero totale di prompt nel set di dati che hai fornito o selezionato e quanti di questi prompt hanno ricevuto risposte. Se il numero di risposte è inferiore al numero di prompt di input moltiplicato per il numero di worker per prompt configurato nel processo (1, 2 o 3), assicurati di controllare il file di output dei dati nel tuo bucket Amazon S3. È possibile che il prompt abbia causato un errore nel modello e che non sia stata recuperata alcuna inferenza. Inoltre, uno o più dipendenti avrebbero potuto rifiutarsi di valutare la risposta dell'output del modello. Nei calcoli metrici verranno utilizzate solo le risposte del lavoratore umano.

Utilizza la seguente procedura per aprire una valutazione del modello che utilizzava lavoratori umani sulla console Amazon Bedrock.

1. Apri la console Amazon Bedrock.

1. Nel riquadro di navigazione seleziona **Valutazione del modello**.

1. Successivamente, nella tabella **Valutazioni dei modelli**, trova il nome del processo di valutazione del modello che desideri esaminare. Quindi, selezionalo.

Il report di valutazione del modello fornisce approfondimenti sui dati raccolti durante un processo di valutazione umana utilizzando le schede di valutazione. Ogni scheda di valutazione mostra la metrica, la descrizione e il metodo di valutazione, oltre a una visualizzazione dei dati che rappresenta i dati raccolti per la determinata metrica.

In ognuna delle seguenti sezioni, puoi vedere un esempio dei 5 possibili metodi di valutazione visualizzati dal tuo team di lavoro nell'interfaccia utente di valutazione. Gli esempi mostrano anche quale coppia chiave-valore viene utilizzata per salvare i risultati in Amazon S3.

## Scala Likert, confronto di output di più modelli
<a name="likert-compare"></a>

I valutatori umani indicano la loro preferenza tra le due risposte del modello su una scala Likert a 5 punti secondo le tue istruzioni. I risultati del report finale verranno visualizzati sotto forma di istogramma delle valutazioni di intensità delle preferenze fornite dai valutatori sull'intero set di dati.

Assicurati di definire i punti importanti della scala a 5 punti nelle istruzioni, in modo che i valutatori sappiano come valutare le risposte in base alle tue aspettative.

![\[Questa è la mia immagine.\]](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/images/model-evaluation/likert-compare.png)


**Output JSON**  
La prima chiave secondaria sotto `evaluationResults` indica dove viene restituito il metodo di valutazione selezionato. Nel file di output salvato nel bucket Amazon S3, i risultati di ogni lavoratore vengono salvati nella coppia chiave-valore `"evaluationResults": "comparisonLikertScale"`.

## Tasti di scelta (pulsante radio)
<a name="choice-buttons"></a>

I pulsanti di scelta consentono a un valutatore umano di indicare la propria risposta preferita rispetto a un'altra risposta. I valutatori indicano la loro preferenza tra due risposte in base alle istruzioni da te fornite con i pulsanti di opzione. I risultati del report finale verranno visualizzati come percentuale delle risposte preferite dai lavoratori per ciascun modello. Assicurati di spiegare chiaramente il tuo metodo di valutazione nelle istruzioni.

![\[Questa è la mia immagine.\]](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/images/model-evaluation/radiobuttons.png)


**Output JSON**  
La prima chiave secondaria sotto `evaluationResults` indica dove viene restituito il metodo di valutazione selezionato. Nel file di output salvato nel bucket Amazon S3, i risultati di ogni lavoratore vengono salvati nella coppia chiave-valore `"evaluationResults": "comparisonChoice"`.

## Classificazione ordinale
<a name="ordinal-rank"></a>

La classificazione ordinale consente a un valutatore umano di classificare le proprie risposte preferite a un prompt in ordine, a partire da 1 in base alle istruzioni fornite. I risultati del report finale verranno visualizzati sotto forma di istogramma delle classificazioni fornite dai valutatori sull'intero set di dati. Assicurati di definire cosa significa un grado pari a 1 nelle tue istruzioni. Questo tipo di dati si chiama Preference Rank.

![\[Questa è la mia immagine.\]](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/images/model-evaluation/ordinal-rank.png)


**Output JSON**  
La prima chiave secondaria sotto `evaluationResults` indica dove viene restituito il metodo di valutazione selezionato. Nel file di output salvato nel bucket Amazon S3, i risultati di ogni lavoratore vengono salvati nella coppia chiave-valore `"evaluationResults": "comparisonRank"`.

## Pollice su/giù
<a name="thump-up-down"></a>

Thumbs up/down consente a un valutatore umano di valutare ogni risposta di un modello così come acceptable/unacceptable according to your instructions. The results in the final report will be shown as a percentage of the total number of ratings by evaluators that received a thumbs up rating for each model. You may use this rating method for a model evaluation job that contains one or more models. If you use this in an evaluation that contains two models, a thumbs up/down verrà presentata al team di lavoro per ogni risposta del modello e il rapporto finale mostrerà i risultati aggregati per ogni modello individualmente. Assicurati di definire cosa è accettabile (ovvero cos'è una valutazione con il pollice in su) nelle istruzioni.

![\[Questa è la mia immagine.\]](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/images/model-evaluation/thumb-up.png)


**Output JSON**  
La prima chiave secondaria sotto `evaluationResults` indica dove viene restituito il metodo di valutazione selezionato. Nel file di output salvato nel bucket Amazon S3, i risultati di ogni lavoratore vengono salvati nella coppia chiave-valore `"evaluationResults": "thumbsUpDown"`.

## Scala Likert, valutazione della risposta di un singolo modello
<a name="likert-single"></a>

Consente a un valutatore umano di indicare in che misura ha approvato la risposta del modello sulla base delle istruzioni fornite su una scala Likert a 5 punti. I risultati del report finale verranno visualizzati sotto forma di istogramma delle valutazioni a 5 punti dei valutatori sull'intero set di dati. Puoi utilizzare questo metodo di valutazione per valutare uno o più modelli. Se selezioni questo metodo di valutazione che contiene più di un modello, al team di lavoro verrà presentato un pollice su/giù per ciascuna risposta del modello e il report finale mostrerà i risultati aggregati per ciascun singolo modello. Assicurati di definire i punti importanti della scala a 5 punti nelle istruzioni, in modo che i valutatori sappiano come valutare le risposte in base alle tue aspettative.

![\[Questa è la mia immagine.\]](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/images/model-evaluation/model-eval-likert2-final.png)


**Output JSON**  
La prima chiave secondaria sotto `evaluationResults` indica dove viene restituito il metodo di valutazione selezionato. Nel file di output salvato nel bucket Amazon S3, i risultati di ogni lavoratore vengono salvati nella coppia chiave-valore `"evaluationResults": "individualLikertScale"`.

# Introduzione al salvataggio dei risultati del processo di valutazione del modello in Amazon S3
<a name="model-evaluation-report-s3"></a>

L'output di un processo di valutazione del modello viene salvato nel bucket Amazon S3 specificato al momento della creazione del processo di valutazione del modello. I risultati dei processi di valutazione del modello vengono salvati come file JSON (`.jsonl`).

I risultati del processo di valutazione del modello vengono salvati nel bucket S3 specificato come segue. 
+ Per i processi di valutazione del modello che utilizzano lavoratori umani:

  `s3://user-specified-S3-output-path/job-name/job-uuid/datasets/dataset-name/file-uuid_output.jsonl` 
+ Per i processi di valutazione del modello automatica:

  `s3://user-specified-S3-output-path/job-name/job-uuid/models/model-id/taskTypes/task-type/datasets/dataset/file-uuid_output.jsonl`

Per i processi di valutazione RAG con una o più metriche personalizzate, Amazon Bedrock archivia anche le definizioni delle metriche come file JSON nel bucket S3 di output specificato. Puoi accedere a questi file dal percorso `s3://S3-output-bucket-name/job-name/job-uuid/custom_metrics`. Per visualizzare il formato delle definizioni JSON delle metriche personalizzate, consulta [Creazione di un file JSON per creare una metrica personalizzata](model-evaluation-custom-metrics-prompt-formats.md#model-evaluation-custom-metrics-prompt-formats-json).

I seguenti argomenti descrivono come i risultati di un processo di valutazione del modello automatica e basata su operatori umani vengono salvati in Amazon S3.

## Dati di output da processi di valutazione del modello automatica
<a name="model-evaluation-report-s3-automated"></a>

I risultati del processo di valutazione automatica vengono archiviati nella directory `datasets` quando lo stato del lavoro passa a **Completato**.

Per ogni metrica e il set di dati dei prompt corrispondente selezionato al momento della creazione del processo di valutazione del modello, nella directory `datasets` viene generato un file JSON. Il file usa la seguente convenzione di denominazione `metric_input-dataset.jsonl`.

Ogni risultato del processo di valutazione del modello inizia con la chiave `automatedEvaluationResult`. La prima chiave secondaria `scores` contiene le metriche selezionate nella console Amazon Bedrock. In questo esempio, è stata selezionata una sola metrica `Accuracy`. Contiene anche `result`, che è il valore calcolato per la metrica selezionata. Per ulteriori informazioni su quale valore specifico viene calcolato, consulta [Esaminare le metriche per un processo di valutazione automatizzata dei modelli in Amazon Bedrock (console)](model-evaluation-report-programmatic.md).

La seconda chiave, `inputRecord`, è una copia di ciò che hai fornito nel set di dati dei prompt di input.

La terza chiave, `modelResponses`, contiene un elenco di oggetti JSON che contiene l'ARN del modello selezionato al momento della creazione del processo di valutazione del modello. Contiene inoltre la risposta completa del modello in base al prompt fornito. 

Di seguito è riportato un esempio di output per il tipo di attività d riepilogo del testo con una sola metrica, l'accuratezza, selezionata.

```
{
"automatedEvaluationResult": {
    "scores": [{
        "metricName": "Accuracy",
        "result": 0.31920555233955383
    }]
},
"inputRecord": {
    "prompt": "Human: two bodies have been recovered from a flooded coal mine in yiyang city , central china 's henan province , as of #:## thursday morning , rescuers said . Assistant:",
    "referenceResponse": "two bodies recovered from flooded coal mine in c. china"
},
"modelResponses": [{
    "modelIdentifier": "arn:aws:bedrock:us-west-2::foundation-model/anthropic.claude-v2",
    "response": " Here are the key points I gathered from your news summary:\n\n- Two bodies have been recovered from a flooded coal mine in Yiyang City, in China's Henan province.\n\n- This happened as of Thursday morning, according to rescuers.\n\n- The location is central China's Henan province. \n\n- Yiyang City is where the flooded coal mine is located.\n\n- The coal mine was flooded, leading to the two deaths and need for rescue/recovery efforts.\n\n- This news is developing as of Thursday morning, so the death toll and rescue details may still be unfolding.\n\nPlease let me know if I have accurately summarized the key information or if you would like me to expand on any part of it."
}]
}
```

## Dati di output dei processi di valutazione del modello che utilizzano lavoratori umani.
<a name="model-evaluation-report-s3-hil"></a>

Una volta completato un processo di valutazione del modello, nei dati di output restituiti dalle attività di revisione umana vengono visualizzati i seguenti parametri.


****  

| Parametro | Tipo di valore | Valori di esempio | Description | 
| --- | --- | --- | --- | 
| flowDefinitionArn |  Stringa  | arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name |  L'Amazon Resource Number (ARN) del flusso di lavoro di revisione umana (definizione flusso) utilizzato per creare il ciclo umano.   | 
| humanAnswers |  Elenco degli oggetti JSON  |  <pre>"answerContent": {<br />"evaluationResults": {<br />	"thumbsUpDown": [{<br />		"metricName": "Relevance",<br />		"modelResponseId": "0",<br />		"result": false<br />	}]<br />}<br />}</pre>  |  Un elenco di oggetti JSON che contengono le risposte dei worker in `answerContent`.   | 
|  `humanLoopName`  | Stringa | system-generated-hash | Una stringa esadecimale di 40 caratteri generata dal sistema. | 
| inputRecord | Oggetto JSON |  <pre>"inputRecord": {<br />"prompt": "What does vitamin C serum do for skin?",<br />"category": "Skincare",<br />"referenceResponse": "Vitamin C serum offers a range of benefits for the skin. Firstly, it acts....<br />}</pre>  | Un oggetto JSON contenente un prompt di immissione dal set di dati di input.  | 
| modelResponses | Elenco degli oggetti JSON |  <pre>"modelResponses": [{<br />"modelIdentifier": "arn:aws:bedrock:us-west-2::foundation-model/model-id",<br />"response": "the-models-response-to-the-prompt"<br />}]</pre>  | Le risposte individuali dei modelli. | 
| inputContent |  Oggetto  | <pre>{<br />     "additionalDataS3Uri":"s3://user-specified-S3-URI-path/datasets/dataset-name/records/record-number/human-loop-additional-data.json",<br />     "evaluationMetrics":[<br />        {<br />           "description":"testing",<br />           "metricName":"IndividualLikertScale",<br />           "ratingMethod":"IndividualLikertScale"<br />        }<br />     ],<br />     "instructions":"example instructions"<br />  }</pre> |  Il contenuto di input del ciclo umano necessario per avviare tale ciclo nel tuo bucket S3.  | 
| modelResponseIdMap |  Oggetto  | <pre>{<br />     "0":"arn:aws:bedrock:us-west-2::foundation-model/model-id"<br />}</pre> |  `humanAnswers.answerContent.evaluationResults` contiene `modelResponseId`. `modelResponseIdMap` collega `modelResponseId` al nome del modello.  | 

<a name="code-sample-model-eval"></a>Di seguito è riportato un esempio di dati di output da un processo di valutazione del modello. 

```
{
"humanEvaluationResult": [{
    "flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name",
    "humanAnswers": [{
        "acceptanceTime": "2023-11-09T19:17:43.107Z",
        "answerContent": {
            "evaluationResults": {
                "thumbsUpDown": [{
                    "metricName": "Coherence",
                    "modelResponseId": "0",
                    "result": false
                }, {
                    "metricName": "Accuracy",
                    "modelResponseId": "0",
                    "result": true
                }],
                "individualLikertScale": [{
                    "metricName": "Toxicity",
                    "modelResponseId": "0",
                    "result": 1
                }]
            }
        },
        "submissionTime": "2023-11-09T19:17:52.101Z",
        "timeSpentInSeconds": 8.994,
        "workerId": "444455556666",
        "workerMetadata": {
            "identityData": {
                "identityProviderType": "Cognito",
                "issuer": "https://cognito-idp.Regione AWS.amazonaws.com/Regione AWS_111222",
                "sub": "c6aa8eb7-9944-42e9-a6b9-"
            }
        }
    }],



				...Additional response have been truncated for clarity...

  }],

 "humanLoopName": "b3b1c64a2166e001e094123456789012",
 "inputContent":{
     "additionalDataS3Uri":"s3://user-specified-S3-output-path/datasets/dataset-name/records/record-number/human-loop-additional-data.json",
     "evaluationMetrics":[
        {
           "description":"testing",
           "metricName":"IndividualLikertScale",
           "ratingMethod":"IndividualLikertScale"
        }
     ],
     "instructions":"some dummy instructions"
  },
  "modelResponseIdMap":{
     "0":"arn:aws:bedrock:Regione AWS::foundation-model/model-id"
  }
},
"inputRecord": {
    "category": "Fitness",
    "prompt": "Human: What is High-Intensity Interval Training ? \\n\\nAssistant:",
    "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods. In HIIT, you perform exercises at near-maximum effort during the high-intensity intervals, which can include activities like sprinting, cycling, jumping, or body weight exercises such as burpees or push-ups. These intense intervals are interspersed with short recovery periods to lower your heart rate before the next high-intensity bout. HIIT workouts usually consist of multiple cycles of these intervals, and the number of cycles and the length of intervals can vary. HIIT is known for its time efficiency, making it an excellent choice for those with busy schedules. It offers both aerobic and anaerobic benefits, improving cardiovascular fitness, burning calories, and promoting fat loss, all while boosting metabolism for continued calorie burning post-workout."
},
"modelResponses": [{
    "modelIdentifier": "arn:aws:bedrock:Regione AWS::foundation-model/model-id",
    "response": " High-intensity interval training (HIIT) is a form of exercise that involves short bursts of intense activity alternated with recovery periods. Here are some key features of HIIT:\n\n- Alternates short periods of intense anaerobic exercise with less intense recovery periods. The high-intensity periods are typically done at 80-95% of maximum heart rate.\n\n- The duration of the intense periods can range from 5 seconds to 8 minutes, but typically are in the range of 30 seconds to 4 minutes.\n\n- The total HIIT session typically lasts between 10-30 minutes, including warm-up, recovery periods, and cool down. \n\n- Uses exercises like sprints, cycling, rowing, jumping rope, stair climbing, swimming, etc. Movements that get your heart rate up quickly.\n\n- The short, intense intervals help improve cardiovascular fitness by increasing heart rate and oxygen consumption.\n\n- HIIT burns more calories and fat than steady-state cardio in a shorter time period. It also helps build muscle strength and endurance.\n\n- Considered an efficient and effective form of exercise for fat loss and improving aerobic power. But it requires motivation to push yourself during the intense intervals.\n\n- Not suitable for beginners due to the high-intensity. Start with steady-state cardio and build up endurance before trying HIIT.\n\nIn summary, HIIT intersperses intense bursts of"
}]
}


}
```

La tabella seguente spiega come il **metodo di valutazione** selezionato per ogni metrica nella console Amazon Bedrock viene restituito nel tuo bucket Amazon S3. La prima chiave secondaria sotto `evaluationResults` indica dove viene restituito il **metodo di valutazione**.




**In che modo i metodi di valutazione selezionati nella console Amazon Bedrock vengono salvati in Amazon S3**  

| Metodo di valutazione selezionato | Salvato in Amazon S3 | 
| --- | --- | 
| Scala Likert: individuale | IndividualLikertScale | 
| Scala Likert: confronto | ComparisonLikertScale | 
| Tasti di scelta | ComparisonChoice | 
| Classificazione ordinale | ComparisonRank | 
| Pollice su/giù | ThumbsUpDown | 