

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Tipi di attività di valutazione del modello in Amazon Bedrock
<a name="model-evaluation-tasks"></a>

In un processo di valutazione del modello, per tipo di attività di valutazione si intende l’attività che si richiede al modello di eseguire sulla base delle informazioni contenute nei prompt. Puoi scegliere un tipo di attività per ogni processo di valutazione del modello.

La tabella seguente riassume i tipi di attività disponibili per le valutazioni automatiche del modello, i set di dati integrati e le metriche pertinenti per ogni tipo di attività.


**Set di dati integrati disponibili per processi di valutazione del modello automatica in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/model-evaluation-tasks.html)

**Topics**
+ [Generazione di testo generale per la valutazione del modello in Amazon Bedrock](model-evaluation-tasks-general-text.md)
+ [Sintesi testuale per la valutazione del modello in Amazon Bedrock](model-evaluation-tasks-text-summary.md)
+ [Domanda e risposta per la valutazione del modello in Amazon Bedrock](model-evaluation-tasks-question-answer.md)
+ [Classificazione del testo per la valutazione del modello in Amazon Bedrock](model-evaluation-text-classification.md)

# Generazione di testo generale per la valutazione del modello in Amazon Bedrock
<a name="model-evaluation-tasks-general-text"></a>

La generazione di testo generale è un’attività utilizzata dalle applicazioni che includono i chatbot. Le risposte generate da un modello a domande generali sono influenzate dalla correttezza, dalla pertinenza e dai bias contenuti nel testo utilizzato per addestrare il modello.

**Importante**  
Per quanto riguarda la generazione di testo generale, esiste un problema di sistema noto che impedisce ai modelli Cohere di completare con successo la valutazione della tossicità.

I seguenti set di dati integrati contengono prompt adatti all’utilizzo in attività generali di generazione di testo.

**Bias in Open-ended Language Generation Dataset (BOLD)**  
Il Bias in Open-ended Language Generation Dataset (BOLD) è un set di dati che valuta l’equità nella generazione di testo generale, concentrandosi su cinque domini: professione, genere, etnia, ideologie religiose e ideologie politiche. Contiene 23.679 diversi prompt per la generazione di testo.

**RealToxicityPrompts**  
RealToxicityPrompts è un set di dati che valuta la tossicità. Tenta di far sì che il modello generi un linguaggio razzista, sessista o altrimenti tossico. Questo set di dati contiene 23.679 diversi prompt per la generazione di testo.

**T-Rex: un allineamento su larga scala del linguaggio naturale con Knowledge Base Triples (TREX)**  
TREX è un set di dati composto da Knowledge Base Triples (KBT) estratti da Wikipedia. I KBT sono un tipo di struttura dati utilizzata nell’elaborazione del linguaggio naturale (NLP) e nella rappresentazione della conoscenza. Sono costituiti da un soggetto, un predicato e un oggetto, in cui il soggetto e l’oggetto sono collegati da una relazione. Un esempio di Knowledge Base Triple (KBT) è “George Washington era il presidente degli Stati Uniti”. Il soggetto è “George Washington”, il predicato è “era il presidente degli” e l’oggetto è “gli Stati Uniti”.

**WikiText2**  
WikiText2 è un set di dati HuggingFace che contiene prompt utilizzati nella generazione di testo generale.

La tabella seguente riepiloga le metriche calcolate e il set di dati integrato consigliato disponibili per i processi di valutazione automatica del modello. Per specificare correttamente i set di dati integrati disponibili utilizzando la AWS CLI o un SDK AWS supportato, utilizza i nomi dei parametri nella colonna *Set di dati integrati (API)*.


**Set di dati integrati disponibili per la generazione di testo generale in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/model-evaluation-tasks-general-text.html)

Per ulteriori informazioni su come viene calcolata la metrica per ogni set di dati integrato, consulta [Analisi dei report e delle metriche relativi ai processi di valutazione del modello in Amazon Bedrock](model-evaluation-report.md)

# Sintesi testuale per la valutazione del modello in Amazon Bedrock
<a name="model-evaluation-tasks-text-summary"></a>

La sintesi testuale viene utilizzata per attività quali la creazione di riepiloghi di notizie, documenti legali, articoli accademici, anteprime di contenuti e cura dei contenuti. L'ambiguità, la coerenza, il bias e la fluidità del testo utilizzato per addestrare il modello, nonché la perdita di informazioni, l'accuratezza, la pertinenza o la mancata corrispondenza del contesto possono influenzare la qualità delle risposte.

**Importante**  
Per quanto riguarda la sintesi testuale, esiste un problema di sistema noto che impedisce ai modelli Cohere di completare con successo la valutazione della tossicità.

Il seguente set di dati integrato è supportato per l’uso con il tipo di attività di riepilogo.

**Gigaword**  
Il set di dati Gigaword è costituito da titoli di articoli di notizie. Questo set di dati viene utilizzato nelle attività di sintesi testuale.

La tabella seguente riepiloga le metriche calcolate e il set di dati integrato consigliato. Per specificare correttamente i set di dati integrati disponibili utilizzando la AWS CLI o un SDK AWS supportato, utilizza i nomi dei parametri nella colonna *Set di dati integrati (API)*.


**Set di dati integrati disponibili per la sintesi testuale in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/model-evaluation-tasks-text-summary.html)

Per ulteriori informazioni su come viene calcolata la metrica per ogni set di dati integrato, consulta [Analisi dei report e delle metriche relativi ai processi di valutazione del modello in Amazon Bedrock](model-evaluation-report.md)

# Domanda e risposta per la valutazione del modello in Amazon Bedrock
<a name="model-evaluation-tasks-question-answer"></a>

Domanda e risposta vengono utilizzate per attività quali la generazione di risposte automatiche dall’help desk, il recupero di informazioni e l’e-learning. Se il testo utilizzato per addestrare il modello di fondazione contiene problemi quali dati incompleti o imprecisi, sarcasmo o ironia, la qualità delle risposte può peggiorare.

**Importante**  
Per domanda e risposta esiste un problema di sistema noto che impedisce ai modelli Cohere di completare con successo una valutazione della tossicità.

I seguenti set di dati integrati sono consigliati per l’uso con il tipo di attività domanda e risposta.

**BoolQ**  
BoolQ è un set di dati composto da coppie di yes/no domande e risposte. Il prompt contiene un breve brano e quindi una domanda sul brano. Questo set di dati è consigliato per l’uso con tipi di attività di domanda e risposta.

**Natural questions**  
Natural questions è un set di dati composto da domande reali degli utenti inviate alla ricerca Google.

**TriviaQA**  
TriviaQA è un set di dati che contiene oltre 650.000. question-answer-evidence-triples Questo set di dati viene utilizzato nelle attività di domanda e risposta.

La tabella seguente riepiloga le metriche calcolate e il set di dati integrato consigliato. *Per specificare correttamente i set di dati integrati disponibili utilizzando o un AWS SDK supportato AWS CLI, utilizza i nomi dei parametri nella colonna Set di dati integrati (API).*


**Set di dati integrati disponibili per il tipo di attività di domanda e risposta in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/model-evaluation-tasks-question-answer.html)

Per ulteriori informazioni su come viene calcolata la metrica per ogni set di dati integrato, consultare [Analisi dei report e delle metriche relativi ai processi di valutazione del modello in Amazon Bedrock](model-evaluation-report.md)

# Classificazione del testo per la valutazione del modello in Amazon Bedrock
<a name="model-evaluation-text-classification"></a>

La classificazione del testo viene utilizzata per suddividere il testo in categorie predefinite. Le applicazioni che utilizzano la classificazione del testo includono i suggerimenti dei contenuti, il rilevamento dello spam, l'identificazione della lingua e l'analisi dei trend sui social media. Classi sbilanciate, dati ambigui, dati confusi e bias nell'etichettatura sono alcuni dei problemi che possono causare errori nella classificazione del testo.

**Importante**  
Per quanto riguarda la classificazione del testo, esiste un problema di sistema noto che impedisce ai modelli Cohere di completare con successo la valutazione della tossicità.

I seguenti set di dati integrati sono consigliati per l'uso con il tipo di attività classificazione del testo.

**Women's E-Commerce Clothing Reviews**  
Women's E-Commerce Clothing Reviews è un set di dati che contiene recensioni di abbigliamento scritte dai clienti. Questo set di dati viene utilizzato nelle attività di classificazione del testo. 

La tabella seguente riepiloga le metriche calcolate e i set di dati integrati consigliati. Per specificare correttamente i set di dati integrati disponibili utilizzando la AWS CLI o un SDK AWS supportato, utilizza i nomi dei parametri nella colonna *Set di dati integrati (API)*.




**Set di dati integrati disponibili in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/it_it/bedrock/latest/userguide/model-evaluation-text-classification.html)

Per ulteriori informazioni su come viene calcolata la metrica per ogni set di dati integrato, consulta [Analisi dei report e delle metriche relativi ai processi di valutazione del modello in Amazon Bedrock](model-evaluation-report.md)