

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Classificazione personalizzata
<a name="how-document-classification"></a>

Utilizza la *classificazione personalizzata* per organizzare i documenti in categorie (classi) da te definite. La classificazione personalizzata è un processo in due fasi. Innanzitutto, addestrate un modello di classificazione personalizzato (chiamato anche classificatore) per riconoscere le classi che vi interessano. Quindi utilizzate il modello per classificare un numero qualsiasi di set di documenti.

Ad esempio, è possibile classificare il contenuto delle richieste di supporto in modo da indirizzare la richiesta al team di supporto appropriato. Oppure puoi classificare le e-mail ricevute dai clienti per fornire indicazioni in base al tipo di richiesta del cliente. Puoi combinare Amazon Comprehend con Amazon Transcribe per convertire la voce in testo e quindi classificare le richieste provenienti dalle chiamate telefoniche di assistenza.

Puoi eseguire una classificazione personalizzata su un singolo documento in modo sincrono (in tempo reale) o avviare un processo asincrono per classificare un set di documenti. Puoi avere più classificatori personalizzati nel tuo account, ognuno addestrato utilizzando dati diversi. La classificazione personalizzata supporta una varietà di tipi di documenti di input, come testo semplice, PDF, Word e immagini.

Quando invii un lavoro di classificazione, scegli il modello di classificatore da utilizzare, in base al tipo di documenti che devi analizzare. Ad esempio, per analizzare documenti in testo semplice, è possibile ottenere risultati più accurati utilizzando un modello addestrato con documenti di testo semplice. Per analizzare documenti semistrutturati (come PDF, Word, immagini, output di Amazon Textract o file scansionati), ottieni i risultati più accurati utilizzando un modello che hai addestrato con documenti nativi.

**Topics**
+ [Preparazione dei dati di addestramento del classificatore](prep-classifier-data.md)
+ [Modelli di classificazione della formazione](training-classifier-model.md)
+ [Eseguire analisi in tempo reale](running-class-sync.md)
+ [Esecuzione di processi asincroni](running-classifiers.md)

# Preparazione dei dati di addestramento del classificatore
<a name="prep-classifier-data"></a>

Per una classificazione personalizzata, si addestra il modello in modalità multiclasse o in modalità multietichetta. La modalità multiclasse associa una singola classe a ciascun documento. La modalità multi-etichetta associa una o più classi a ciascun documento. I formati dei file di input sono diversi per ogni modalità, quindi scegliete la modalità da utilizzare prima di creare i dati di allenamento. 

**Nota**  
La console Amazon Comprehend fa riferimento alla modalità multiclasse come modalità a etichetta singola.

La classificazione personalizzata supporta modelli addestrati con documenti di testo semplice e modelli addestrati con documenti nativi (come PDF, Word o immagini). Per ulteriori informazioni sui modelli di classificazione e sui tipi di documenti supportati, vedere. [Modelli di classificazione della formazione](training-classifier-model.md)

Per preparare i dati per addestrare un modello di classificatore personalizzato: 

1. Identifica le classi che desideri che questo classificatore analizzi. Decidi quale modalità usare (multiclasse o multi-etichetta).

1. Decidi il tipo di modello di classificatore, in base al fatto che il modello sia destinato all'analisi di documenti di testo semplice o di documenti semistrutturati. 

1. Raccogli esempi di documenti per ciascuna classe. Per i requisiti minimi di formazione, consulta[Quote generali per la classificazione dei documenti](guidelines-and-limits.md#limits-class-general).

1. Per un modello in testo semplice, scegliete il formato del file di addestramento da utilizzare (file CSV o file manifesto aumentato). Per addestrare un modello di documento nativo, utilizzate sempre un file CSV. 

**Topics**
+ [Formati di file di formazione Classifier](prep-class-data-format.md)
+ [Modalità multiclasse](prep-classifier-data-multi-class.md)
+ [Modalità multi-etichetta](prep-classifier-data-multi-label.md)

# Formati di file di formazione Classifier
<a name="prep-class-data-format"></a>

Per un modello in testo semplice, puoi fornire i dati di addestramento del classificatore come file CSV o come file manifest aumentato creato utilizzando AI Ground Truth. SageMaker Il file CSV o file manifesto aumentato include il testo di ogni documento di formazione e le etichette associate.

Per un modello di documento nativo, fornisci i dati di formazione di Classifier come file CSV. Il file CSV include il nome del file per ogni documento di formazione e le etichette associate. Includi i documenti di formazione nella cartella di input di Amazon S3 per il lavoro di formazione.

## File CSV
<a name="prep-data-csv"></a>

Fornisci dati di allenamento etichettati come testo con codifica UTF-8 in un file CSV. Non includere una riga di intestazione. L'aggiunta di una riga di intestazione nel file può causare errori di runtime.

Per ogni riga del file CSV, la prima colonna contiene una o più etichette di classe. Un'etichetta di classe può essere qualsiasi stringa UTF-8 valida. Ti consigliamo di utilizzare nomi di classe chiari che non si sovrappongano nel significato. Il nome può includere spazi bianchi e può essere composto da più parole collegate da caratteri di sottolineatura o trattini.

Non lasciate spazi prima o dopo le virgole che separano i valori in una riga. 

Il contenuto esatto del file CSV dipende dalla modalità di classificazione e dal tipo di dati di allenamento. Per i dettagli, consulta le sezioni relative a [Modalità multiclasse](prep-classifier-data-multi-class.md) e. [Modalità multi-etichetta](prep-classifier-data-multi-label.md)

## File manifesto aumentato
<a name="prep-data-annotations"></a>

Un file manifest aumentato è un set di dati etichettato creato utilizzando AI Ground SageMaker Truth. Ground Truth è un servizio di etichettatura dei dati che aiuta te, o la forza lavoro che impieghi, a creare set di dati di formazione per modelli di apprendimento automatico. 

Per ulteriori informazioni su Ground Truth e sull'output che produce, consulta [Use SageMaker AI Ground Truth to Label Data](https://docs.aws.amazon.com/sagemaker/latest/dg/sms.html) nella *Amazon SageMaker AI Developer Guide*.

I file manifest aumentati sono in formato righe JSON. In questi file, ogni riga è un oggetto JSON completo che contiene un documento di formazione e le etichette associate. Il contenuto esatto di ogni riga dipende dalla modalità di classificazione. Per i dettagli, consulta le sezioni relative a [Modalità multiclasse](prep-classifier-data-multi-class.md) e[Modalità multi-etichetta](prep-classifier-data-multi-label.md).

Quando fornisci i dati di addestramento ad Amazon Comprehend, specifichi uno o più nomi di attributi dell'etichetta. Il numero di nomi di attributi che specifichi dipende dal fatto che il file manifesto aumentato sia l'output di un singolo processo di etichettatura o di un processo di etichettatura concatenato.

Se il file è l'output di un singolo lavoro di etichettatura, specifica il nome dell'attributo dell'etichetta singola dal lavoro Ground Truth. 

Se il file è l'output di un lavoro di etichettatura concatenato, specifica il nome dell'attributo di etichetta per uno o più lavori della catena. Il nome di ogni attributo dell'etichetta fornisce le annotazioni di un singolo lavoro. È possibile specificare fino a 5 di questi attributi per i file manifest aumentati provenienti da processi di etichettatura concatenati. 

Per ulteriori informazioni sui lavori di etichettatura concatenati e per esempi dei risultati che producono, consulta [Chaining Labeling Jobs nella](https://docs.aws.amazon.com/sagemaker/latest/dg/sms-reusing-data.html) Amazon SageMaker AI Developer Guide.

# Modalità multiclasse
<a name="prep-classifier-data-multi-class"></a>

In modalità multiclasse, la classificazione assegna una classe per ogni documento. Le singole classi si escludono a vicenda. Ad esempio, puoi classificare un film come commedia o fantascienza, ma non entrambi. 

**Nota**  
La console Amazon Comprehend fa riferimento alla modalità multiclasse come modalità a etichetta singola.

**Topics**
+ [Modelli in testo semplice](#prep-multi-class-plaintext)
+ [Modelli di documenti nativi](#prep-multi-class-structured)

## Modelli in testo semplice
<a name="prep-multi-class-plaintext"></a>

Per addestrare un modello in testo semplice, puoi fornire dati di addestramento etichettati come file CSV o come file manifest aumentato da AI Ground Truth. SageMaker 

### File CSV
<a name="prep-multi-class-plaintext-csv"></a>

Per informazioni generali sull'utilizzo dei file CSV per i classificatori di formazione, consulta. [File CSV](prep-class-data-format.md#prep-data-csv)

Fornisci i dati di formazione come file CSV a due colonne. Per ogni riga, la prima colonna contiene il valore dell'etichetta della classe. La seconda colonna contiene un documento di testo di esempio per quella classe. Ogni riga deve terminare con\$1no\$1 r\$1ncaratteri.

L'esempio seguente mostra un file CSV contenente tre documenti.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS,Text of document 3
```

L'esempio seguente mostra una riga di un file CSV che addestra un classificatore personalizzato per rilevare se un messaggio di posta elettronica è spam:

```
SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."
```

### File manifesto aumentato
<a name="prep-multi-class-plaintext-manifest"></a>

Per informazioni generali sull'utilizzo dei file manifest aumentati per i classificatori di addestramento, vedere. [File manifesto aumentato](prep-class-data-format.md#prep-data-annotations)

Per i documenti di testo semplice, ogni riga del file manifest aumentato è un oggetto JSON completo che contiene un documento di formazione, un nome di classe singolo e altri metadati di Ground Truth. L'esempio seguente è un file manifest aumentato per addestrare un classificatore personalizzato a riconoscere i messaggi e-mail di spam:

```
{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}}
{"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}}
{"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}
```

 L'esempio seguente mostra un oggetto JSON del file manifest aumentato, formattato per la leggibilità: 

```
{
   "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.",
   "MultiClassJob": 0,
   "MultiClassJob-metadata": {
       "confidence": 0.98,
       "job-name": "labeling-job/multiclassjob",
       "class-name": "spam",
       "human-annotated": "yes",
       "creation-date": "2020-05-21T17:36:45.814354",
       "type": "groundtruth/text-classification"
   }
}
```

In questo esempio, l'`source`attributo fornisce il testo del documento di formazione e assegna l'`MultiClassJob`indice di una classe da un elenco di classificazione. L'`job-name`attributo è il nome che hai definito per il lavoro di etichettatura in Ground Truth. 

 Quando inizi il processo di formazione sui classificatori in Amazon Comprehend, specifichi lo stesso nome del processo di etichettatura. 

## Modelli di documenti nativi
<a name="prep-multi-class-structured"></a>

Un modello di documento nativo è un modello che si addestra con documenti nativi (come PDF, DOCX e immagini). I dati di addestramento vengono forniti come file CSV.

### File CSV
<a name="prep-multi-class-structured-csv"></a>

Per informazioni generali sull'utilizzo dei file CSV per i classificatori di formazione, consulta. [File CSV](prep-class-data-format.md#prep-data-csv)

Fornisci i dati di formazione come file CSV a tre colonne. Per ogni riga, la prima colonna contiene il valore dell'etichetta della classe. La seconda colonna contiene il nome di file di un documento di esempio per questa classe. La terza colonna contiene il numero di pagina. Il numero di pagina è facoltativo se il documento di esempio è un'immagine.

L'esempio seguente mostra un file CSV che fa riferimento a tre documenti di input. 

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS,input-doc-3.png
```

L'esempio seguente mostra una riga di un file CSV che addestra un classificatore personalizzato per rilevare se un messaggio di posta elettronica è spam. La pagina 2 del file PDF contiene l'esempio di spam. 

```
SPAM,email-content-3.pdf,2
```

# Modalità multi-etichetta
<a name="prep-classifier-data-multi-label"></a>

In modalità multietichetta, le singole classi rappresentano categorie diverse che non si escludono a vicenda. La classificazione multietichetta assegna una o più classi a ciascun documento. Ad esempio, puoi classificare un film come documentario e un altro film come fantascienza, azione e commedia. 

Per quanto riguarda la formazione, la modalità multi-etichetta supporta fino a 1 milione di esempi contenenti fino a 100 classi uniche.

**Topics**
+ [Modelli in testo semplice](#prep-multi-label-plaintext)
+ [Modelli di documenti nativi](#prep-multi-label-structured)

## Modelli in testo semplice
<a name="prep-multi-label-plaintext"></a>

Per addestrare un modello in testo semplice, puoi fornire dati di addestramento etichettati come file CSV o come file manifest aumentato da AI Ground Truth. SageMaker 

### File CSV
<a name="prep-multi-label-plaintext-csv"></a>

Per informazioni generali sull'utilizzo dei file CSV per i classificatori di formazione, consulta. [File CSV](prep-class-data-format.md#prep-data-csv)

Fornisci i dati di formazione come file CSV a due colonne. Per ogni riga, la prima colonna contiene i valori delle etichette delle classi e la seconda contiene un documento di testo di esempio per queste classi. Per inserire più di una classe nella prima colonna, utilizzate un delimitatore (ad esempio un \$1) tra ogni classe.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS|CLASS|CLASS,Text of document 3
```

L'esempio seguente mostra una riga di un file CSV che addestra un classificatore personalizzato per rilevare i generi negli abstract dei film:

```
COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"
```

Il delimitatore predefinito tra i nomi delle classi è una pipe (\$1). Tuttavia, è possibile utilizzare un carattere diverso come delimitatore. Il delimitatore deve essere distinto da tutti i caratteri dei nomi delle classi. **Ad esempio, se le classi sono CLASS\$11, CLASS\$12 e CLASS\$13, il carattere di sottolineatura (\$1) fa parte del nome della classe.** Quindi non usate un carattere di sottolineatura come delimitatore per separare i nomi delle classi.

### File manifesto aumentato
<a name="prep-multi-label-plaintext-manifest"></a>

Per informazioni generali sull'utilizzo dei file manifest aumentati per i classificatori di addestramento, vedere. [File manifesto aumentato](prep-class-data-format.md#prep-data-annotations)

Per i documenti in testo semplice, ogni riga del file manifest aumentato è un oggetto JSON completo. Contiene un documento di formazione, i nomi delle classi e altri metadati di Ground Truth. L'esempio seguente è un file manifest aumentato per addestrare un classificatore personalizzato a rilevare i generi negli abstract dei film:

```
{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}
```

 L'esempio seguente mostra un oggetto JSON del file manifest aumentato, formattato per la leggibilità: 

```
{
      "source": "A band of misfit teens become unlikely detectives when 
                   they discover troubling clues about their high school English teacher. 
                     Could the strange Mrs. Doe be an alien from outer space?",
      "MultiLabelJob": [
          3,
          8,
          10,
          11
      ],
      "MultiLabelJob-metadata": {
          "job-name": "labeling-job/multilabeljob",
          "class-map": {
              "3": "comedy",
              "8": "mystery",
              "10": "science_fiction",
              "11": "teen"
          },
          "human-annotated": "yes",
          "creation-date": "2020-05-21T19:00:01.291202",
          "confidence-map": {
              "3": 0.95,
              "8": 0.77,
              "10": 0.83,
              "11": 0.92
          },
          "type": "groundtruth/text-classification-multilabel"
      }
  }
```

In questo esempio, l'`source`attributo fornisce il testo del documento di formazione e assegna gli `MultiLabelJob` indici di diverse classi da un elenco di classificazione. Il nome del lavoro nei `MultiLabelJob` metadati è il nome che hai definito per il lavoro di etichettatura in Ground Truth. 

## Modelli di documenti nativi
<a name="prep-multi-label-structured"></a>

Un modello di documento nativo è un modello che si addestra con documenti nativi (come PDF, DOCX e file di immagine). Fornisci dati di addestramento etichettati come file CSV.

### File CSV
<a name="prep-multi-label-structured-csv"></a>

Per informazioni generali sull'utilizzo dei file CSV per i classificatori di formazione, consulta. [File CSV](prep-class-data-format.md#prep-data-csv)

Fornisci i dati di formazione come file CSV a tre colonne. Per ogni riga, la prima colonna contiene i valori dell'etichetta della classe. La seconda colonna contiene il nome di file di un documento di esempio per queste classi. La terza colonna contiene il numero di pagina. Il numero di pagina è facoltativo se il documento di esempio è un'immagine.

Per inserire più di una classe nella prima colonna, utilizzate un delimitatore (ad esempio un \$1) tra ogni classe.

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS|CLASS|CLASS,input-doc-3.png,2
```

L'esempio seguente mostra una riga di un file CSV che addestra un classificatore personalizzato per rilevare i generi negli abstract dei film. La pagina 2 del file PDF contiene l'esempio di un film. comedy/teen 

```
COMEDY|TEEN,movie-summary-1.pdf,2
```

Il delimitatore predefinito tra i nomi delle classi è una pipe (\$1). Tuttavia, è possibile utilizzare un carattere diverso come delimitatore. Il delimitatore deve essere distinto da tutti i caratteri dei nomi delle classi. **Ad esempio, se le classi sono CLASS\$11, CLASS\$12 e CLASS\$13, il carattere di sottolineatura (\$1) fa parte del nome della classe.** Quindi non usate un carattere di sottolineatura come delimitatore per separare i nomi delle classi.

# Modelli di classificazione della formazione
<a name="training-classifier-model"></a>

Per addestrare un modello per la classificazione personalizzata, è necessario definire le categorie e fornire documenti di esempio per addestrare il modello personalizzato. Il modello viene addestrato in modalità multiclasse o multi-etichetta. La modalità multiclasse associa una singola classe a ciascun documento. La modalità multi-etichetta associa una o più classi a ciascun documento.

La classificazione personalizzata supporta due tipi di modelli di classificazione: modelli di testo semplice e modelli di documenti nativi. Un modello di testo semplice classifica i documenti in base al loro contenuto testuale. Un modello di documento nativo classifica anche i documenti in base al contenuto del testo. Un modello di documento nativo può anche utilizzare segnali aggiuntivi, ad esempio dal layout del documento. Si addestra un modello di documento nativo con documenti nativi affinché il modello apprenda le informazioni sul layout. 

I modelli in testo semplice hanno le seguenti caratteristiche: 
+ Il modello viene addestrato utilizzando documenti di testo con codifica UTF-8. 
+ È possibile addestrare il modello utilizzando documenti in una delle seguenti lingue: inglese, spagnolo, tedesco, italiano, francese o portoghese. 
+ I documenti di formazione per un determinato classificatore devono utilizzare tutti la stessa lingua. 
+ I documenti di formazione sono in testo semplice, quindi non ci sono costi aggiuntivi per l'estrazione del testo. 

I modelli di documenti nativi hanno le seguenti caratteristiche: 
+ Il modello viene addestrato utilizzando documenti semistrutturati, che includono i seguenti tipi di documenti:
  + Documenti PDF digitali e scansionati.
  + Documenti Word (DOCX).
  + Immagini: file JPG, file PNG e file TIFF a pagina singola.
  + L'API Textract genera file JSON.
+ Il modello viene addestrato utilizzando documenti in inglese. 
+ Se i documenti di formazione includono file di documenti scansionati, dovrai sostenere costi aggiuntivi per l'estrazione del testo. Per ulteriori informazioni, consulta la pagina [dei prezzi di Amazon Comprehend](https://aws.amazon.com/comprehend/pricing). 

Puoi classificare qualsiasi tipo di documento supportato utilizzando entrambi i tipi di modello. Tuttavia, per risultati più accurati, consigliamo di utilizzare un modello di testo semplice per classificare i documenti in testo semplice e un modello di documento nativo per classificare i documenti semistrutturati.

**Topics**
+ [Addestra classificatori personalizzati (console)](create-custom-classifier-console.md)
+ [Addestra classificatori personalizzati (API)](train-custom-classifier-api.md)
+ [Verifica i dati di allenamento](testing-the-model.md)
+ [Risultati formativi di Classifier](train-classifier-output.md)
+ [Metriche di classificazione personalizzate](cer-doc-class.md)

# Addestra classificatori personalizzati (console)
<a name="create-custom-classifier-console"></a>

È possibile creare e addestrare un classificatore personalizzato utilizzando la console e quindi utilizzare il classificatore personalizzato per analizzare i documenti.

Per addestrare un classificatore personalizzato, è necessario un set di documenti di formazione. Etichettate questi documenti con le categorie che desiderate che il classificatore di documenti riconosca. Per informazioni sulla preparazione dei documenti di formazione, consulta[Preparazione dei dati di addestramento del classificatore](prep-classifier-data.md).



**Per creare e addestrare un modello di classificazione dei documenti**

1. Accedi Console di gestione AWS e apri la console Amazon Comprehend all'indirizzo [https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/)

1. Dal menu a sinistra, scegli **Personalizzazione**, quindi scegli Classificazione **personalizzata**.

1. Scegli **Crea nuovo modello**.

1. In **Impostazioni modello**, inserisci un nome di modello per il classificatore. Il nome deve essere univoco all'interno del tuo account e della regione corrente.

   (Facoltativo) Inserisci il nome della versione. Il nome deve essere univoco all'interno del tuo account e della regione corrente.

1. Seleziona la lingua dei documenti di formazione. Per vedere le lingue supportate dai classificatori, vedi. [Modelli di classificazione della formazione](training-classifier-model.md) 

1. (Facoltativo) Se desideri crittografare i dati nel volume di storage mentre Amazon Comprehend elabora il tuo processo di formazione, **scegli** la crittografia Classifier. Quindi scegli se utilizzare una chiave KMS associata al tuo account corrente o una di un altro account.
   + Se utilizzi una chiave associata all'account corrente, scegli l'ID della chiave per l'ID della **chiave KMS**.
   + Se utilizzi una chiave associata a un altro account, inserisci l'ARN per l'ID della chiave in ARN della **chiave KMS**.
**Nota**  
[Per ulteriori informazioni sulla creazione e l'utilizzo delle chiavi KMS e sulla crittografia associata, vedi ().AWS Key Management ServiceAWS KMS](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html)

1. In **Specifiche dei dati**, scegli il **tipo di modello di addestramento** da utilizzare.
   + **Documenti di testo semplice:** scegliete questa opzione per creare un modello di testo semplice. Addestra il modello utilizzando documenti di testo semplice.
   + **Documenti nativi:** scegliete questa opzione per creare un modello di documento nativo. Addestra il modello utilizzando documenti nativi (PDF, Word, immagini). 

1. Scegli il **formato** dei dati di allenamento. Per informazioni sui formati dei dati, vedere[Formati di file di formazione Classifier](prep-class-data-format.md).
   + **File CSV:** scegliete questa opzione se i dati di allenamento utilizzano il formato di file CSV.
   + **Manifesto aumentato:** scegli questa opzione se hai utilizzato Ground Truth per creare file manifest aumentati per i tuoi dati di allenamento. Questo formato è disponibile se avete scelto **Documenti in testo semplice come tipo** di modello di allenamento.

1. Scegliete la **modalità Classifier** da usare.
   + **Modalità etichetta singola:** scegli questa modalità se le categorie che stai assegnando ai documenti si escludono a vicenda e stai addestrando il tuo classificatore ad assegnare un'etichetta a ciascun documento. Nell'API Amazon Comprehend, la modalità a etichetta singola è nota come modalità multiclasse.
   + **Modalità multi-etichetta:** scegli questa modalità se è possibile applicare più categorie a un documento contemporaneamente e stai addestrando il classificatore ad assegnare una o più etichette a ciascun documento. 

1. **Se scegli la **modalità Multi-etichetta**, puoi selezionare il Delimitatore per le etichette.** Utilizzate questo carattere delimitatore per separare le etichette quando vi sono più classi per un documento di formazione. Il delimitatore predefinito è il carattere pipe.

1. (Facoltativo) Se avete scelto **Augmented manifest** come formato di dati, potete inserire fino a cinque file manifest aumentati. Ogni file manifesto aumentato contiene un set di dati di addestramento o un set di dati di test. È necessario fornire almeno un set di dati di addestramento. I set di dati di test sono facoltativi. Utilizzate i seguenti passaggi per configurare i file manifest aumentati:

   1. In **Training and test dataset**, espandi il pannello **Input location**.

   1. In **Tipo di set di** dati, scegli Dati di **addestramento o Dati** di **test**.

   1. **Per la **posizione S3 del file manifesto aumentato SageMaker AI Ground Truth**, inserisci la posizione del bucket Amazon S3 che contiene il file manifest o accedi ad esso scegliendo Browse S3.** Il ruolo IAM che stai utilizzando per le autorizzazioni di accesso per il processo di formazione deve avere autorizzazioni di lettura per il bucket S3. 

   1. Per i **nomi degli attributi**, inserisci il nome dell'attributo che contiene le tue annotazioni. Se il file contiene annotazioni provenienti da più lavori di etichettatura concatenati, aggiungi un attributo per ogni lavoro.

   1. Per aggiungere un'altra posizione di input, scegliete **Aggiungi posizione di input** e quindi configurate la posizione successiva.

1. (Facoltativo) Se hai scelto il **file CSV** come formato di dati, utilizza i seguenti passaggi per configurare il set di dati di addestramento e il set di dati di test opzionale:

   1. **In **Training dataset**, inserisci la posizione del bucket Amazon S3 che contiene il file CSV dei dati di allenamento o accedi al file selezionando Browse S3.** Il ruolo IAM che stai utilizzando per le autorizzazioni di accesso al processo di formazione deve disporre delle autorizzazioni di lettura per il bucket S3. 

      (Facoltativo) Se hai scelto **Documenti nativi** come tipo di modello di formazione, fornisci anche l'URL della cartella Amazon S3 che contiene i file di esempio di formazione.

   1. In **Set di dati di test**, seleziona se stai fornendo dati aggiuntivi ad Amazon Comprehend per testare il modello addestrato.
      + **Autosplit**: Autosplit seleziona automaticamente il 10% dei dati di allenamento da riservare per l'uso come dati di test.
      + (Facoltativo) **Fornito dal cliente**: inserisci l'URL del file CSV dei dati di test in Amazon S3. Puoi anche accedere alla sua posizione in Amazon S3 e scegliere **Seleziona** cartella.

        (Facoltativo) Se scegli **Documenti nativi** come tipo di modello di formazione, fornisci anche l'URL della cartella Amazon S3 che contiene i file di test.

1. (Facoltativo) Per la **modalità di lettura dei documenti**, puoi sovrascrivere le azioni di estrazione del testo predefinite. Questa opzione non è richiesta per i modelli con testo semplice, poiché si applica all'estrazione del testo per i documenti scansionati. Per ulteriori informazioni, consulta [Impostazione delle opzioni di estrazione del testo](idp-set-textract-options.md). 

1. (Facoltativo per i modelli in testo semplice) Per **i dati di output**, inserisci la posizione di un bucket Amazon S3 per salvare i dati di output dell'allenamento, come la matrice di confusione. Per ulteriori informazioni, consulta [Matrice di confusione](train-classifier-output.md#conf-matrix).

   **(Facoltativo) Se scegli di crittografare il risultato dell'output del tuo processo di formazione, scegli Crittografia.** Quindi scegli se utilizzare una chiave KMS associata all'account corrente o una di un altro account.
   + Se utilizzi una chiave associata all'account corrente, scegli l'alias della chiave per l'ID della chiave **KMS**.
   + Se utilizzi una chiave associata a un altro account, inserisci l'ARN per l'alias o l'ID della chiave in **KMS** key ID.

1. Per il **ruolo IAM**, scegli **Scegli un ruolo IAM esistente**, quindi scegli un ruolo IAM esistente con autorizzazioni di lettura per il bucket S3 che contiene i tuoi documenti di formazione. Il ruolo deve avere una politica di fiducia che inizi con `comprehend.amazonaws.com` per essere valido.

   Se non disponi già di un ruolo IAM con queste autorizzazioni, scegli **Crea un ruolo IAM** per crearne uno. Scegli le autorizzazioni di accesso per concedere questo ruolo, quindi scegli un suffisso di nome per distinguere il ruolo dai ruoli IAM nel tuo account.
**Nota**  
Per i documenti di input crittografati, anche il ruolo IAM utilizzato deve disporre dell'autorizzazione. `kms:Decrypt` Per ulteriori informazioni, consulta [Autorizzazioni necessarie per utilizzare la crittografia KMS](security_iam_id-based-policy-examples.md#auth-kms-permissions).

1. (Facoltativo) Per avviare le tue risorse in Amazon Comprehend da un VPC, inserisci l'ID VPC in **VPC** o scegli l'ID dall'elenco a discesa. 

   1. **Scegli la sottorete in Sottoreti.** Dopo aver selezionato la prima sottorete, è possibile sceglierne altre.

   1. In **Gruppi di sicurezza**, scegli il gruppo di sicurezza da utilizzare, se ne hai specificato uno. Dopo aver selezionato il primo gruppo di sicurezza, puoi sceglierne altri.
**Nota**  
Quando utilizzi un VPC con il tuo lavoro di classificazione, quello `DataAccessRole` utilizzato per le operazioni di creazione e avvio deve disporre delle autorizzazioni per il VPC che accede ai documenti di input e al bucket di output.

1. **(Facoltativo) Per aggiungere un tag al classificatore personalizzato, inserite una coppia chiave-valore in Tag.** Seleziona **Aggiungi tag**. **Per rimuovere questa coppia prima di creare il classificatore, scegliete Rimuovi tag.** Per ulteriori informazioni, consulta [Tagging delle risorse](tagging.md).

1. Scegli **Create** (Crea).

La console visualizza la pagina **Classificatori**. Il nuovo classificatore viene visualizzato nella tabella e ne viene visualizzato lo `Submitted` stato. Quando il classificatore inizia a elaborare i documenti di formazione, lo stato cambia in. `Training` Quando un classificatore è pronto per l'uso, lo stato diventa o. `Trained` `Trained with warnings` Se lo stato è`TRAINED_WITH_WARNINGS`, esamina la cartella dei file ignorati in. [Risultati formativi di Classifier](train-classifier-output.md)

Se Amazon Comprehend ha riscontrato errori durante la creazione o la formazione, lo stato cambia in. `In error` Puoi scegliere un lavoro di classificatore nella tabella per ottenere maggiori informazioni sul classificatore, inclusi eventuali messaggi di errore.

![\[L'elenco dei classificatori personalizzati.\]](http://docs.aws.amazon.com/it_it/comprehend/latest/dg/images/class-list.png)


# Addestra classificatori personalizzati (API)
<a name="train-custom-classifier-api"></a>

Per creare e addestrare un classificatore personalizzato, utilizzate l'[CreateDocumentClassifier](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_CreateDocumentClassifier.html)operazione.

È possibile monitorare l'avanzamento della richiesta utilizzando l'[DescribeDocumentClassifier](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDocumentClassifier.html)operazione. Dopo la transizione del `Status` campo a`TRAINED`, è possibile utilizzare il classificatore per classificare i documenti. Se lo stato è`TRAINED_WITH_WARNINGS`, esaminate la cartella dei file ignorati contenuta nel modulo dell'[Risultati formativi di Classifier](train-classifier-output.md)operazione. `CreateDocumentClassifier`

**Topics**
+ [Addestramento: classificazione personalizzata utilizzando il AWS Command Line Interface](#get-started-api-customclass-cli)
+ [Usare AWS SDK per Java o SDK per Python](#get-started-api-customclass-java)

## Addestramento: classificazione personalizzata utilizzando il AWS Command Line Interface
<a name="get-started-api-customclass-cli"></a>

Negli esempi seguenti viene illustrato come utilizzare l'`CreateDocumentClassifier`operazione, l'`DescribeDocumentClassificationJob`operazione e altri classificatori personalizzati APIs con. AWS CLI

Gli esempi sono formattati per Unix, Linux e macOS. Per Windows, sostituisci il carattere di continuazione UNIX barra rovesciata (\$1) al termine di ogni riga con un accento circonflesso (^).

Crea un classificatore personalizzato in testo semplice utilizzando l'operazione. `create-document-classifier`

```
aws comprehend create-document-classifier \
     --region region \
     --document-classifier-name testDelete \
     --language-code en \
     --input-data-config S3Uri=s3://S3Bucket/docclass/file name \
     --data-access-role-arn arn:aws:iam::account number:role/testFlywheelDataAccess
```

Per creare un classificatore personalizzato nativo, fornite i seguenti parametri aggiuntivi nella richiesta. `create-document-classifier`

1. DocumentType: impostate il valore su SEMI\$1STRUCTURED\$1DOCUMENT.

1. Documenti: la posizione S3 per i documenti di formazione (e, facoltativamente, i documenti dei test).

1. OutputDataConfig: fornisce la posizione S3 per i documenti di output (e una chiave KMS opzionale). 

1. DocumentReaderConfig: Campo opzionale per le impostazioni di estrazione del testo.

```
aws comprehend create-document-classifier \
     --region region \
     --document-classifier-name testDelete \
     --language-code en \
     --input-data-config 
          S3Uri=s3://S3Bucket/docclass/file name \
           DocumentType \
             Documents  \
     --output-data-config S3Uri=s3://S3Bucket/docclass/file name \
     --data-access-role-arn arn:aws:iam::account number:role/testFlywheelDataAccess
```

Ottieni informazioni su un classificatore personalizzato con il classificatore di documenti ARN utilizzando l'operazione. `DescribeDocumentClassifier`

```
aws comprehend describe-document-classifier \
     --region region \
     --document-classifier-arn arn:aws:comprehend:region:account number:document-classifier/file name
```

Eliminare un classificatore personalizzato utilizzando l'operazione. `DeleteDocumentClassifier`

```
aws comprehend delete-document-classifier \
     --region region \
     --document-classifier-arn arn:aws:comprehend:region:account number:document-classifier/testDelete
```

Elenca tutti i classificatori personalizzati presenti nell'account utilizzando l'operazione. `ListDocumentClassifiers`

```
aws comprehend list-document-classifiers
     --region region
```

## Usare AWS SDK per Java o SDK per Python
<a name="get-started-api-customclass-java"></a>

Per esempi SDK su come creare e addestrare un classificatore personalizzato, consulta. [Utilizzo `CreateDocumentClassifier` con un AWS SDK o una CLI](example_comprehend_CreateDocumentClassifier_section.md)

# Verifica i dati di allenamento
<a name="testing-the-model"></a>

Dopo aver addestrato il modello, Amazon Comprehend verifica il modello di classificatore personalizzato. Se non fornisci un set di dati di test, Amazon Comprehend addestra il modello con il 90% dei dati di addestramento. Riserva il 10 percento dei dati di addestramento da utilizzare per i test. Se fornite un set di dati di test, i dati del test devono includere almeno un esempio per ogni etichetta univoca nel set di dati di addestramento. 

Il test del modello fornisce metriche che è possibile utilizzare per stimare l'accuratezza del modello. La console visualizza le metriche nella sezione delle **prestazioni del classificatore** della pagina dei **dettagli del classificatore** nella console. Vengono inoltre restituite nei `Metrics` campi restituiti dall'operazione. [DescribeDocumentClassifier](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDocumentClassifier.html)

Nel seguente esempio di dati di formazione, ci sono cinque etichette: DOCUMENTARY, DOCUMENTARY, SCIENCE\$1FICTION, DOCUMENTARY, ROMANTIC\$1COMEDY. Esistono tre classi uniche: DOCUMENTARY, SCIENCE\$1FICTION, ROMANTIC\$1COMMEDIA. 


| Colonna 1 | Colonna 2 | 
| --- | --- | 
| DOCUMENTARIO | testo del documento 1 | 
| DOCUMENTARIO | testo del documento 2 | 
| FANTASCIENZA | testo del documento 3 | 
| DOCUMENTARIO | testo del documento 4 | 
| COMMEDIA ROMANTICA | testo del documento 5 | 

Per la suddivisione automatica (in cui Amazon Comprehend riserva il 10% dei dati di addestramento da utilizzare per i test), se i dati di addestramento contengono esempi limitati di un'etichetta specifica, il set di dati di test può contenere zero esempi di tale etichetta. Ad esempio, se il set di dati di addestramento contiene 1000 istanze della classe DOCUMENTARY, 900 istanze di SCIENCE\$1FICTION e una singola istanza della classe ROMANTIC\$1COMEDY, il set di dati di test potrebbe contenere 100 istanze DOCUMENTARY e 90 istanze SCIENCE\$1FICTION, ma nessuna istanza ROMANTIC\$1COMEDY, poiché è disponibile un solo esempio. 

Dopo aver completato l'addestramento del modello, le metriche di addestramento forniscono informazioni che è possibile utilizzare per decidere se il modello è sufficientemente preciso per le proprie esigenze. 

# Risultati formativi di Classifier
<a name="train-classifier-output"></a>

Dopo aver completato la formazione sul modello di classificatore personalizzato, Amazon Comprehend crea file di output nella posizione di output di Amazon S3 specificata nella richiesta [CreateDocumentClassifier](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_CreateDocumentClassifier.html)API o nella richiesta di console equivalente.

Amazon Comprehend crea una matrice di confusione quando si addestra un modello di testo semplice o un modello di documento nativo. Può creare file di output aggiuntivi quando si addestra un modello di documento nativo.

**Topics**
+ [Matrice di confusione](#conf-matrix)
+ [Output aggiuntivi per modelli di documenti nativi](#train-class-output-native)

## Matrice di confusione
<a name="conf-matrix"></a>

Quando si addestra un modello di classificatore personalizzato, Amazon Comprehend crea una matrice di confusione che fornisce metriche sulle prestazioni del modello durante la formazione. Questa matrice mostra una matrice di etichette prevista dal modello rispetto alle etichette effettive dei documenti. Amazon Comprehend utilizza una parte dei dati di addestramento per creare la matrice di confusione.

Una matrice di confusione fornisce un'indicazione di quali classi potrebbero utilizzare più dati per migliorare le prestazioni del modello. Una classe con un'alta percentuale di previsioni corrette ha il maggior numero di risultati lungo la diagonale della matrice. Se il numero sulla diagonale è un numero inferiore, la classe ha una frazione inferiore di previsioni corrette. Puoi aggiungere altri esempi di formazione per questa classe e addestrare nuovamente il modello. Ad esempio, se il 40 percento dei campioni dell'etichetta A viene classificato come etichetta D, l'aggiunta di altri campioni per l'etichetta A e l'etichetta D migliora le prestazioni del classificatore.

Dopo che Amazon Comprehend ha creato il modello di classificazione, la matrice di confusione è disponibile nel `confusion_matrix.json` file nella posizione di output di S3. 

Il formato della matrice di confusione varia a seconda che il classificatore sia stato addestrato utilizzando la modalità multiclasse o la modalità multi-etichetta.

**Topics**
+ [Matrice di confusione per la modalità multiclasse](#m-c-matrix)
+ [Matrice di confusione per la modalità multietichetta](#m-l-matrix)

### Matrice di confusione per la modalità multiclasse
<a name="m-c-matrix"></a>

In modalità multiclasse, le singole classi si escludono a vicenda, pertanto la classificazione assegna un'etichetta a ciascun documento. Ad esempio, un animale può essere un cane o un gatto, ma non entrambi allo stesso tempo.

Considera il seguente esempio di matrice di confusione per un classificatore addestrato multiclasse:

```
  A B X Y <-(predicted label)
A 1 2 0 4
B 0 3 0 1
X 0 0 1 0
Y 1 1 1 1
^
|
(actual label)
```

In questo caso, il modello prevedeva quanto segue:
+ Un'etichetta «A» è stata prevista con precisione, due etichette «A» sono state erroneamente previste come etichette «B» e quattro etichette «A» sono state previste erroneamente come etichette «Y».
+ Tre etichette «B» sono state previste con precisione e un'etichetta «B» è stata erroneamente prevista come etichetta «Y».
+ Una «X» è stata prevista con precisione.
+ Un'etichetta «Y» è stata prevista con precisione, una è stata prevista erroneamente come etichetta «A», una è stata prevista erroneamente come etichetta «B» e un'altra è stata prevista erroneamente come etichetta «X».

La linea diagonale nella matrice (A:A, B:B, X:X e Y:Y) mostra le previsioni accurate. Gli errori di previsione sono i valori esterni alla diagonale. In questo caso, la matrice mostra i seguenti tassi di errore di previsione: 
+ Etichette A: 86%
+ Etichette B: 25%
+ Etichette X: 0%
+ Etichette Y: 75%

Il classificatore restituisce la matrice di confusione come file in formato JSON. Il seguente file JSON rappresenta la matrice dell'esempio precedente.

```
{
 "type": "multi_class",
 "confusion_matrix": [
 [1, 2, 0,4],
 [0, 3, 0, 1],
 [0, 0, 1, 0],
 [1, 1, 1, 1]],
 "labels": ["A", "B", "X", "Y"],
 "all_labels": ["A", "B", "X", "Y"]
}
```

### Matrice di confusione per la modalità multietichetta
<a name="m-l-matrix"></a>

In modalità multietichetta, la classificazione può assegnare una o più classi a un documento. Considerate il seguente esempio di matrice di confusione per un classificatore addestrato a più classi.

In questo esempio, ci sono tre etichette possibili: `Comedy``Action`, e. `Drama` La matrice di confusione multietichetta crea una matrice 2x2 per ogni etichetta.

```
Comedy                   Action                   Drama 
     No Yes                   No Yes                   No Yes   <-(predicted label)                                      
 No  2   1                No  1   1                No  3   0                                                         
Yes  0   2               Yes  2   1               Yes  1   1   
 ^                        ^                        ^
 |                        |                        |
 |-----------(was this label actually used)--------|
```

In questo caso, il modello ha restituito quanto segue per l'etichetta: `Comedy`
+ Due casi in cui è stata prevista con precisione la presenza di `Comedy` un'etichetta. Vero positivo (TP). 
+ Due casi in cui è stata prevista con precisione l'assenza di `Comedy` un'etichetta. Vero negativo (TN).
+ Zero casi in cui era stata erroneamente prevista la presenza di `Comedy` un'etichetta. Falso positivo (FP).
+ Un caso in cui era stata erroneamente prevista l'assenza di un'`Comedy`etichetta. Falso negativo (FN).

Come in una matrice di confusione multiclasse, la linea diagonale di ogni matrice mostra le previsioni accurate.

In questo caso, il modello ha previsto con precisione `Comedy` le etichette l'80% delle volte (TP più TN) e le ha previste erroneamente il 20% delle volte (FP più FN).



Il classificatore restituisce la matrice di confusione come file in formato JSON. Il seguente file JSON rappresenta la matrice dell'esempio precedente.

```
{
"type": "multi_label",
"confusion_matrix": [
 [[2, 1],        
 [0, 2]],
 [[1, 1],        
 [2, 1]],      
 [[3, 0],        
 [1, 1]]
], 
"labels": ["Comedy", "Action", "Drama"]
"all_labels": ["Comedy", "Action", "Drama"]
}
```

## Output aggiuntivi per modelli di documenti nativi
<a name="train-class-output-native"></a>

Amazon Comprehend può creare file di output aggiuntivi durante l'addestramento di un modello di documento nativo.

### Output di Amazon Textract
<a name="textract-output"></a>

Se Amazon Comprehend ha richiamato Amazon Textract per estrarre il testo APIs da uno qualsiasi dei documenti di formazione, salva i file di output di Amazon Textract nella posizione di output di S3. Utilizza la seguente struttura di directory:
+ **Documenti di formazione:** 

  `amazon-textract-output/train/<file_name>/<page_num>/textract_output.json` 
+ **Documenti di prova:** 

  `amazon-textract-output/test/<file_name>/<page_num>/textract_output.json`

Amazon Comprehend compila la cartella di test se hai fornito documenti di test nella richiesta API.

### Errori di annotazione dei documenti
<a name="failed-files-output"></a>

 **Amazon Comprehend crea i seguenti file nella posizione di output di Amazon S3 (nella cartella skipped\$1documents/) in caso di annotazioni non riuscite:**
+ failed\$1annotations\$1train.jsonl

  Il file esiste se qualche annotazione non è riuscita nei dati di addestramento.
+ failed\$1annotations\$1test.jsonl

  Il file esiste se la richiesta includeva dati di test e qualsiasi annotazione non è riuscita nei dati di test.

I file di annotazione non riusciti sono file JSONL con il seguente formato:

```
{
     "File": "String", "Page": Number, "ErrorCode": "...", "ErrorMessage": "..."}
    {"File": "String", "Page": Number, "ErrorCode": "...", "ErrorMessage": "..."
  }
```

# Metriche di classificazione personalizzate
<a name="cer-doc-class"></a>

Amazon Comprehend fornisce metriche per aiutarti a stimare le prestazioni di un classificatore personalizzato. Amazon Comprehend calcola le metriche utilizzando i dati di test del processo di formazione del classificatore. Le metriche rappresentano accuratamente le prestazioni del modello durante l'allenamento, quindi approssimano le prestazioni del modello per la classificazione di dati simili. 

Utilizza operazioni API, ad esempio [DescribeDocumentClassifier](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDocumentClassifier.html)per recuperare le metriche per un classificatore personalizzato.

**Nota**  
Fai riferimento a [Metrics: Precision, recall e FScore](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_fscore_support.html) per una comprensione delle metriche sottostanti del punteggio Precision, Recall e F1. Queste metriche sono definite a livello di classe. Amazon Comprehend utilizza la media delle **macro** per combinare questi parametri nel set di test P, R e F1, come illustrato di seguito.

**Topics**
+ [Metriche](#cer-doc-class-metrics)
+ [Miglioramento delle prestazioni del classificatore personalizzato](#improving-metrics-doc)

## Metriche
<a name="cer-doc-class-metrics"></a>

Amazon Comprehend supporta le seguenti metriche: 

**Topics**
+ [Accuratezza](#class-accuracy-metric)
+ [Precisione (precisione macro)](#class-macroprecision-metric)
+ [Richiamo (richiamo di macro)](#class-macrorecall-metric)
+ [Punteggio F1 (punteggio macro F1)](#class-macrof1score-metric)
+ [Perdita di Hamming](#class-hammingloss-metric)
+ [Micro precisione](#class-microprecision-metric)
+ [Micro richiamo](#class-microrecall-metric)
+ [Punteggio Micro F1](#class-microf1score-metric)

Per visualizzare le metriche di un classificatore, apri la pagina dei **dettagli del classificatore** nella console.

![\[Metriche personalizzate del classificatore\]](http://docs.aws.amazon.com/it_it/comprehend/latest/dg/images/classifierperformance.png)


### Accuratezza
<a name="class-accuracy-metric"></a>

La precisione indica la percentuale di etichette dei dati di test che il modello ha previsto con precisione. Per calcolare l'accuratezza, dividi il numero di etichette previste con precisione nei documenti di test per il numero totale di etichette nei documenti di test.

Ad esempio


| Etichetta effettiva | Etichetta prevista | Preciso/errato | 
| --- | --- | --- | 
|  1  |  1  |  Preciso  | 
|  0  |  1  |  Errato  | 
|  2  |  3  |  Errato  | 
|  3  |  3  |  Preciso  | 
|  2  |  2  |  Preciso  | 
|  1  |  1  |  Preciso  | 
|  3  |  3  | Preciso | 

L'accuratezza è costituita dal numero di previsioni accurate diviso per il numero di campioni complessivi dei test = 5/7 = 0,714 o 71,4%

### Precisione (precisione macro)
<a name="class-macroprecision-metric"></a>

La precisione è una misura dell'utilità dei risultati del classificatore nei dati del test. È definito come il numero di documenti classificati accuratamente, diviso per il numero totale di classificazioni per la classe. L'alta precisione significa che il classificatore ha restituito risultati significativamente più pertinenti rispetto a quelli non pertinenti. 

*La `Precision` metrica è anche nota come Macro Precision.* 

L'esempio seguente mostra i risultati di precisione per un set di test.


| Etichetta | Dimensione del campione | Precisione dell'etichetta | 
| --- | --- | --- | 
|  Etichetta\$11  |  400  |  0.75  | 
|  Etichetta\$12  |  300  |  0,80  | 
|  Etichetta\$13  |  30000  |  0.90  | 
|  Etichetta\$14  |  20  |  0.50  | 
|  Etichetta\$15  |  10  |  0,40  | 

La metrica Precision (Macro Precision) per il modello è quindi:

```
Macro Precision = (0.75 + 0.80 + 0.90 + 0.50 + 0.40)/5 = 0.67
```

### Richiamo (richiamo di macro)
<a name="class-macrorecall-metric"></a>

Indica la percentuale di categorie corrette nel testo che il modello è in grado di prevedere. Questa metrica deriva dalla media dei punteggi di richiamo di tutte le etichette disponibili. Il richiamo è una misura della completezza dei risultati del classificatore per i dati del test. 

Un richiamo elevato significa che il classificatore ha restituito la maggior parte dei risultati pertinenti. 

La `Recall` metrica è anche nota come *Macro* Recall.

L'esempio seguente mostra i risultati di richiamo per un set di test.


| Etichetta | Dimensione del campione | Richiamo dell'etichetta | 
| --- | --- | --- | 
|  Etichetta\$11  |  400  |  0,70  | 
|  Etichetta\$12  |  300  |  0,70  | 
|  Etichetta\$13  |  30000  |  0,98  | 
|  Etichetta\$14  |  20  |  0,80  | 
|  Etichetta\$15  |  10  |  0.10  | 

La metrica Recall (Macro Recall) per il modello è quindi:

```
Macro Recall = (0.70 + 0.70 + 0.98 + 0.80 + 0.10)/5 = 0.656
```

### Punteggio F1 (punteggio macro F1)
<a name="class-macrof1score-metric"></a>

Il punteggio F1 è derivato dai valori and. `Precision` `Recall` Misura la precisione complessiva del classificatore. Il punteggio più alto è 1 e il punteggio più basso è 0. 

Amazon Comprehend calcola il punteggio *Macro* F1. È la media non ponderata dei punteggi F1 dell'etichetta. Utilizzando il seguente set di test come esempio:


| Etichetta | Dimensione del campione | Etichetta il punteggio F1 | 
| --- | --- | --- | 
|  Etichetta\$11  |  400  |  0,724  | 
|  Etichetta\$12  |  300  |  0,824  | 
|  Etichetta\$13  |  30000  |  0,94  | 
|  Etichetta\$14  |  20  |  0,62  | 
|  Etichetta\$15  |  10  |  0,16  | 

Il punteggio F1 (Macro F1 Score) per il modello viene calcolato come segue:

```
Macro F1 Score = (0.724 + 0.824 + 0.94 + 0.62 + 0.16)/5 = 0.6536
```

### Perdita di Hamming
<a name="class-hammingloss-metric"></a>

La frazione di etichette prevista in modo errato. Considerata anche come la frazione di etichette errate rispetto al numero totale di etichette. I punteggi più vicini allo zero sono migliori.

### Micro precisione
<a name="class-microprecision-metric"></a>

Originale: 

Simile alla metrica di precisione, tranne per il fatto che la microprecisione si basa sul punteggio complessivo di tutti i punteggi di precisione sommati.

### Micro richiamo
<a name="class-microrecall-metric"></a>

Simile alla metrica di richiamo, tranne per il fatto che il micro richiamo si basa sul punteggio complessivo di tutti i punteggi di richiamo sommati.

### Punteggio Micro F1
<a name="class-microf1score-metric"></a>

Il punteggio Micro F1 è una combinazione delle metriche Micro Precision e Micro Recall.

## Miglioramento delle prestazioni del classificatore personalizzato
<a name="improving-metrics-doc"></a>

Le metriche forniscono una panoramica delle prestazioni del classificatore personalizzato durante un processo di classificazione. Se le metriche sono basse, il modello di classificazione potrebbe non essere efficace per il tuo caso d'uso. Sono disponibili diverse opzioni per migliorare le prestazioni del classificatore:

1. Nei dati di allenamento, fornisci esempi concreti che definiscano una netta separazione delle categorie. Ad esempio, fornite documenti che utilizzano Unique words/sentences per rappresentare la categoria. 

1. Aggiungi altri dati per le etichette sottorappresentate nei dati di allenamento.

1. Cerca di ridurre l'inclinazione nelle categorie. Se l'etichetta più grande dei tuoi dati contiene più di 10 volte i documenti nell'etichetta più piccola, prova ad aumentare il numero di documenti per l'etichetta più piccola. Assicurati di ridurre il rapporto di inclinazione a un massimo di 10:1 tra le classi altamente rappresentate e quelle meno rappresentate. Puoi anche provare a rimuovere i documenti di input dalle classi altamente rappresentate.

# Eseguire analisi in tempo reale
<a name="running-class-sync"></a>

Dopo aver addestrato un classificatore personalizzato, puoi classificare i documenti utilizzando l'analisi in tempo reale. L'analisi in tempo reale utilizza un singolo documento come input e restituisce i risultati in modo sincrono. La classificazione personalizzata accetta una varietà di tipi di documenti come input per l'analisi in tempo reale. Per informazioni dettagliate, vedi [Ingressi per analisi personalizzate in tempo reale](idp-inputs-sync.md).

Se prevedi di analizzare file di immagini o documenti PDF scansionati, la tua policy IAM deve concedere le autorizzazioni per utilizzare due metodi DetectDocumentText API Amazon Textract (e). AnalyzeDocument Amazon Comprehend richiama questi metodi durante l'estrazione del testo. Per un esempio di policy, consulta [Autorizzazioni necessarie per eseguire azioni di analisi dei documenti](security_iam_id-based-policy-examples.md#security-iam-based-policy-perform-cmp-actions).

È necessario creare un endpoint per eseguire analisi in tempo reale utilizzando un modello di classificazione personalizzato. 

**Topics**
+ [Analisi in tempo reale per una classificazione personalizzata (console)](custom-sync.md)
+ [Analisi in tempo reale per la classificazione personalizzata (API)](class-sync-api.md)
+ [Output per analisi in tempo reale](outputs-class-sync.md)

# Analisi in tempo reale per una classificazione personalizzata (console)
<a name="custom-sync"></a>

Puoi utilizzare la console Amazon Comprehend per eseguire analisi in tempo reale utilizzando un modello di classificazione personalizzato.

Crei un endpoint per eseguire l'analisi in tempo reale. Un endpoint include risorse gestite che rendono disponibile il modello personalizzato per l'inferenza in tempo reale.

Per informazioni sul provisioning della velocità effettiva degli endpoint e sui costi associati, consulta. [Utilizzo degli endpoint Amazon Comprehend](using-endpoints.md)

**Topics**
+ [Creazione di un endpoint per la classificazione personalizzata](#create-endpoint)
+ [Esecuzione della classificazione personalizzata in tempo reale](#cc-real-time-analysis)

## Creazione di un endpoint per la classificazione personalizzata
<a name="create-endpoint"></a>

**Per creare un endpoint (console)**

1. Accedi Console di gestione AWS e apri la console Amazon Comprehend all'indirizzo [https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/)

1. Dal menu a sinistra, scegli **Endpoints** e scegli il pulsante **Crea endpoint**. Si apre una **schermata Crea endpoint**.

1. Assegna un nome all'endpoint. Il nome deve essere univoco all'interno della regione e dell'account correnti.

1. Scegli un modello personalizzato a cui desideri collegare il nuovo endpoint. Dal menu a discesa, puoi cercare per nome del modello.
**Nota**  
È necessario creare un modello prima di potervi collegare un endpoint. Se non hai ancora un modello, vedi[Modelli di classificazione della formazione](training-classifier-model.md).

1. **(Facoltativo) per aggiungere un tag all'endpoint, inserisci una coppia chiave-valore in **Tag e scegli Aggiungi tag**.** **Per rimuovere questa coppia prima di creare l'endpoint, scegli Rimuovi tag**

1. Immettete il numero di unità di inferenza (IUs) da assegnare all'endpoint. Ogni unità rappresenta una velocità effettiva di 100 caratteri al secondo per un massimo di due documenti al secondo. Per informazioni sulla velocità effettiva degli endpoint, vedere. [Utilizzo degli endpoint Amazon Comprehend](using-endpoints.md) 

1. (Facoltativo) Se state creando un nuovo endpoint, avete la possibilità di utilizzare lo stimatore dell'interfaccia utente. A seconda della velocità effettiva o del numero di caratteri da analizzare al secondo, può essere difficile sapere quante unità di inferenza sono necessarie. Questo passaggio facoltativo può aiutarti a determinare il numero IUs di richieste. 

1. Nel **riepilogo degli acquisti**, esamina il costo finale orario, giornaliero e mensile stimato. 

1. Seleziona la casella di controllo se ritieni che il tuo account comporti addebiti per l'endpoint dal momento in cui viene avviato fino a quando non lo elimini.

1. **Scegli Crea endpoint**

## Esecuzione della classificazione personalizzata in tempo reale
<a name="cc-real-time-analysis"></a>

Dopo aver creato un endpoint, puoi eseguire analisi in tempo reale utilizzando il tuo modello personalizzato. Esistono due modi per eseguire analisi in tempo reale dalla console. È possibile inserire testo o caricare un file, come illustrato di seguito. 

**Per eseguire analisi in tempo reale utilizzando un modello personalizzato (console)**

1. Accedi Console di gestione AWS e apri la console Amazon Comprehend all'indirizzo [https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/)

1. Dal menu a sinistra, scegli **Analisi in tempo reale**.

1. In **Tipo di input**, scegli **Personalizzato** per il **tipo di analisi**. 

1. In **Tipo di modello personalizzato**, scegli **Classificazione personalizzata**. 

1. Per **Endpoint**, scegli l'endpoint che desideri utilizzare. Questo endpoint si collega a un modello personalizzato specifico. 

1. Per specificare i dati di input per l'analisi, puoi inserire del testo o caricare un file.
   + Per inserire del testo:

     1. Scegli **Inserisci testo**.

     1. Inserisci il testo che desideri analizzare. 
   + Per caricare un file:

     1. Scegli **Carica file** e inserisci il nome del file da caricare.

     1. (Facoltativo) In **Azioni di lettura avanzate**, puoi sostituire le azioni predefinite per l'estrazione del testo. Per maggiori dettagli, consultare [Impostazione delle opzioni di estrazione del testo](idp-set-textract-options.md).

   Per ottenere risultati ottimali, abbinate il tipo di input al tipo di modello di classificatore. La console visualizza un avviso se inviate un documento nativo a un modello di testo normale o testo semplice a un modello di documento nativo. Per ulteriori informazioni, consulta [Modelli di classificazione della formazione](training-classifier-model.md).

1. **Scegliete Analizza.** Amazon Comprehend analizza i dati di input utilizzando il tuo modello personalizzato. Amazon Comprehend mostra le classi scoperte, insieme a una valutazione di confidenza per ogni classe. 

# Analisi in tempo reale per la classificazione personalizzata (API)
<a name="class-sync-api"></a>

Puoi utilizzare l'API Amazon Comprehend per eseguire la classificazione in tempo reale con un modello personalizzato. Innanzitutto, crei un endpoint per eseguire l'analisi in tempo reale. Dopo aver creato l'endpoint, si esegue la classificazione in tempo reale.

Gli esempi in questa sezione utilizzano i formati di comandi per Unix, Linux e macOS. Per Windows, sostituisci il carattere di continuazione UNIX barra rovesciata (\$1) al termine di ogni riga con un accento circonflesso (^).

Per informazioni sul provisioning della velocità effettiva degli endpoint e sui costi associati, consulta. [Utilizzo degli endpoint Amazon Comprehend](using-endpoints.md)

**Topics**
+ [Creazione di un endpoint per la classificazione personalizzata](#create-endpoint-api)
+ [Esecuzione della classificazione personalizzata in tempo reale](#cc-real-time-analysis-api)

## Creazione di un endpoint per la classificazione personalizzata
<a name="create-endpoint-api"></a>

L'esempio seguente mostra il funzionamento dell'[CreateEndpoint](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_CreateEndpoint.html)API utilizzando. AWS CLI

```
aws comprehend create-endpoint \
    --desired-inference-units number of inference units \
    --endpoint-name endpoint name \
    --model-arn arn:aws:comprehend:region:account-id:model/example \
    --tags Key=My1stTag,Value=Value1
```

Amazon Comprehend risponde con quanto segue:

```
{
   "EndpointArn": "Arn"
}
```

## Esecuzione della classificazione personalizzata in tempo reale
<a name="cc-real-time-analysis-api"></a>

Dopo aver creato un endpoint per il modello di classificazione personalizzato, si utilizza l'endpoint per eseguire l'operazione [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)API. È possibile fornire un input di testo utilizzando il parametro `text` o`bytes`. Immettete gli altri tipi di input utilizzando il `bytes` parametro.

Per i file di immagine e i file PDF, è possibile utilizzare il `DocumentReaderConfig` parametro per sovrascrivere le azioni di estrazione del testo predefinite. Per maggiori dettagli, consultare [Impostazione delle opzioni di estrazione del testo](idp-set-textract-options.md).

Per ottenere risultati ottimali, abbinate il tipo di input al tipo di modello di classificatore. La risposta dell'API include un avviso se invii un documento nativo a un modello di testo semplice o un file di testo semplice a un modello di documento nativo. Per ulteriori informazioni, consulta [Modelli di classificazione della formazione](training-classifier-model.md).

### Usando il AWS Command Line Interface
<a name="cc-real-time-analysis-api-cli"></a>

Gli esempi seguenti mostrano come utilizzare il comando CLI *classify-document*. 

#### Classificare il testo utilizzando il AWS CLI
<a name="cc-real-time-analysis-api-run-cli1"></a>

L'esempio seguente esegue la classificazione in tempo reale su un blocco di testo.

```
aws comprehend classify-document \
     --endpoint-arn arn:aws:comprehend:region:account-id:endpoint/endpoint name \
     --text 'From the Tuesday, April 16th, 1912 edition of The Guardian newspaper: The maiden voyage of the White Star liner Titanic, 
     the largest ship ever launched ended in disaster. The Titanic started her trip from Southampton for New York on Wednesday. Late 
     on Sunday night she struck an iceberg off the Grand Banks of Newfoundland. By wireless telegraphy she sent out signals of distress, 
     and several liners were near enough to catch and respond to the call.'
```

Amazon Comprehend risponde con quanto segue:

```
{
    "Classes": [ 
       { 
          "Name": "string",
          "Score": 0.9793661236763
       }
    ]
 }
```

#### Classificate un documento semistrutturato utilizzando il AWS CLI
<a name="cc-real-time-analysis-api-run-cli2"></a>

Per analizzare la classificazione personalizzata di un file PDF, Word o di immagine, esegui il `classify-document` comando con il file di input nel `bytes` parametro.

L'esempio seguente utilizza un'immagine come file di input. Utilizza l'`fileb`opzione per codificare in base 64 i byte del file di immagine. Per ulteriori informazioni, vedere [Binary large objects](https://docs.aws.amazon.com/cli/latest/userguide/cli-usage-parameters-types.html#parameter-type-blob) nella Guida per l'utente. AWS Command Line Interface 

Questo esempio passa anche un file JSON denominato `config.json` per impostare le opzioni di estrazione del testo.

```
$ aws comprehend classify-document \
> --endpoint-arn arn \
> --language-code en \
> --bytes fileb://image1.jpg   \
> --document-reader-config file://config.json
```

Il file **config.json** contiene il seguente contenuto.

```
 {
    "DocumentReadMode": "FORCE_DOCUMENT_READ_ACTION",
    "DocumentReadAction": "TEXTRACT_DETECT_DOCUMENT_TEXT"    
 }
```

Amazon Comprehend risponde con quanto segue:

```
{
    "Classes": [ 
       { 
          "Name": "string",
          "Score": 0.9793661236763
       }
    ]
 }
```

Per ulteriori informazioni, consulta [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)*Amazon Comprehend API* Reference.

# Output per analisi in tempo reale
<a name="outputs-class-sync"></a>

## Uscite per input di testo
<a name="outputs-class-sync-text"></a>

Per gli input di testo, l'output include l'elenco di classi o etichette identificate dall'analisi del classificatore. L'esempio seguente mostra un elenco con due classi.

```
"Classes": [
  {
     "Name": "abc",
     "Score": 0.2757999897003174,
     "Page": 1
  },
  {
    "Name": "xyz",
    "Score": 0.2721000015735626,
    "Page": 1
  }
]
```

## Uscite per input semistrutturati
<a name="outputs-class-sync-other"></a>

Per un documento di input semistrutturato o un file di testo, l'output può includere i seguenti campi aggiuntivi:
+ DocumentMetadata — Informazioni di estrazione sul documento. I metadati includono un elenco di pagine del documento, con il numero di caratteri estratti da ciascuna pagina. Questo campo è presente nella risposta se la richiesta includeva il `Byte` parametro.
+ DocumentType — Il tipo di documento per ogni pagina del documento di input. Questo campo è presente nella risposta se la richiesta includeva il `Byte` parametro.
+ Errori: errori a livello di pagina rilevati dal sistema durante l'elaborazione del documento di input. Il campo è vuoto se il sistema non ha riscontrato errori.
+ Avvertenze: avvisi rilevati durante l'elaborazione del documento di input. La risposta include un avviso in caso di mancata corrispondenza tra il tipo di documento di input e il tipo di modello associato all'endpoint specificato. Il campo è vuoto se il sistema non ha generato alcun avviso.

Per ulteriori dettagli su questi campi di output, consulta [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)*Amazon Comprehend API* Reference.

L'esempio seguente mostra l'output di un documento di input PDF nativo di una pagina.

```
{
  "Classes": [
      {
          "Name": "123",
          "Score": 0.39570000767707825,
          "Page": 1
      },
      {
          "Name": "abc",
          "Score": 0.2757999897003174,
          "Page": 1
      },
      {
          "Name": "xyz",
          "Score": 0.2721000015735626,
          "Page": 1
      }
  ],
  "DocumentMetadata": {
      "Pages": 1,
      "ExtractedCharacters": [
          {
              "Page": 1,
              "Count": 2013
          }
      ]
  },
  "DocumentType": [
      {
          "Page": 1,
          "Type": "NATIVE_PDF"
      }
  ]
}
```

# Esecuzione di processi asincroni
<a name="running-classifiers"></a>

Dopo aver addestrato un classificatore personalizzato, è possibile utilizzare processi asincroni per analizzare documenti di grandi dimensioni o più documenti in un unico batch.

La classificazione personalizzata accetta una varietà di tipi di documenti di input. Per informazioni dettagliate, vedi [Ingressi per analisi asincrone personalizzate](idp-inputs-async.md).

Se prevedi di analizzare file di immagini o documenti PDF scansionati, la tua policy IAM deve concedere le autorizzazioni per utilizzare due metodi DetectDocumentText API Amazon Textract (e). AnalyzeDocument Amazon Comprehend richiama questi metodi durante l'estrazione del testo. Per un esempio di policy, consulta [Autorizzazioni necessarie per eseguire azioni di analisi dei documenti](security_iam_id-based-policy-examples.md#security-iam-based-policy-perform-cmp-actions).

Per la classificazione di documenti semistrutturati (immagini, file PDF o Docx) utilizzando un modello di testo semplice, utilizza il formato di input. `one document per file` Inoltre, includi il parametro nella `DocumentReaderConfig` tua richiesta. [StartDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_StartDocumentClassificationJob.html)

**Topics**
+ [Formati di file per l'analisi asincrona](class-inputs-async.md)
+ [Lavori di analisi per la classificazione personalizzata (console)](analysis-jobs-custom-classifier.md)
+ [Lavori di analisi per la classificazione personalizzata (API)](analysis-jobs-custom-class-api.md)
+ [Output per lavori di analisi asincroni](outputs-class-async.md)

# Formati di file per l'analisi asincrona
<a name="class-inputs-async"></a>

Quando si esegue un'analisi asincrona con il modello, è possibile scegliere tra diversi formati per i documenti di input: `One document per line` o. `one document per file` Il formato utilizzato dipende dal tipo di documenti che si desidera analizzare, come descritto nella tabella seguente.


| Description | Formato | 
| --- | --- | 
| L'input contiene più file. Ogni file contiene un documento di input. Questo formato è ideale per raccolte di documenti di grandi dimensioni, come articoli di giornale o articoli scientifici. Inoltre, utilizzate questo formato per documenti semistrutturati (file di immagine, PDF o Docx) utilizzando un classificatore di documenti nativo. | Un documento per file | 
|  L'input è costituito da uno o più file. Ogni riga del file è un documento di input separato. Questo formato è ideale per documenti brevi, come messaggi di testo o post sui social media.  | Un documento per riga | 

**Un documento per file**

Con il `one document per file` formato, ogni file rappresenta un documento di input. 

**Un documento per riga**

Con il `One document per line` formato, ogni documento viene posizionato su una riga separata e non viene utilizzata alcuna intestazione. L'etichetta non è inclusa in ogni riga (poiché non conosci ancora l'etichetta del documento). Ogni riga del file (la fine del singolo documento) deve terminare con un'alimentazione di riga (LF,\$1n), un corriage return (CR,\$1 r) o entrambi (CRLF,\$1 r\$1n). Non utilizzare il separatore di riga UTF-8 (u\$12028) per terminare una riga.

L'esempio seguente mostra il formato del file di input.

```
Text of document 1 \n
Text of document 2 \n
Text of document 3 \n
Text of document 4 \n
```

Per entrambi i formati, utilizzate la codifica UTF-8 per i file di testo. Dopo aver preparato i file, inseriscili nel bucket S3 che stai utilizzando per i dati di input.

Quando inizi un processo di classificazione, specifichi questa posizione Amazon S3 per i dati di input. L'URI deve trovarsi nella stessa regione dell'endpoint API che stai chiamando. L'URI può puntare a un singolo file (come quando si utilizza il metodo «un documento per riga») oppure può essere il prefisso per una raccolta di file di dati. 

Ad esempio, se utilizzi l'URI`S3://bucketName/prefix`, se il prefisso è un singolo file, Amazon Comprehend utilizza quel file come input. Se più di un file inizia con il prefisso, Amazon Comprehend li utilizza tutti come input. 

Concedi ad Amazon Comprehend l'accesso al bucket S3 che contiene la raccolta di documenti e i file di output. Per ulteriori informazioni, consulta [Autorizzazioni basate sui ruoli necessarie per le operazioni asincrone](security_iam_id-based-policy-examples.md#auth-role-permissions).

# Lavori di analisi per la classificazione personalizzata (console)
<a name="analysis-jobs-custom-classifier"></a>

Dopo aver creato e addestrato un [classificatore di documenti personalizzato](), è possibile utilizzare la console per eseguire processi di classificazione personalizzati con il modello.

**Per creare un processo di classificazione personalizzato (console)**

1. Accedi Console di gestione AWS e apri la console Amazon Comprehend all'indirizzo [https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/)

1. Dal menu a sinistra, scegli **Analysis jobs**, quindi scegli **Crea job**.

1. Assegna un nome al lavoro di classificazione. Il nome deve essere univoco per il tuo account e per la regione corrente.

1. In **Tipo di analisi**, scegli **Classificazione personalizzata**.

1. Da **Seleziona classificatore**, scegli il classificatore personalizzato da utilizzare.

1. **(Facoltativo) Se scegli di crittografare i dati utilizzati da Amazon Comprehend durante l'elaborazione del lavoro, scegli Job encryption.** Quindi scegli se utilizzare una chiave KMS associata all'account corrente o una di un altro account.
   + Se utilizzi una chiave associata all'account corrente, scegli l'ID della chiave per l'ID della **chiave KMS**.
   + Se utilizzi una chiave associata a un altro account, inserisci l'ARN per l'ID della chiave in ARN della **chiave KMS**.
**Nota**  
Per ulteriori informazioni sulla creazione e l'utilizzo delle chiavi KMS e sulla crittografia associata, consulta [Servizio di gestione delle chiavi](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html) (KMS).

1. **In **Dati di input**, inserisci la posizione del bucket Amazon S3 che contiene i documenti di input o accedi al bucket scegliendo Browse S3.** Questo bucket deve trovarsi nella stessa regione dell'API che stai chiamando. Il ruolo IAM che stai utilizzando per le autorizzazioni di accesso per il processo di classificazione deve disporre delle autorizzazioni di lettura per il bucket S3.

   Per ottenere il massimo livello di precisione nell'addestramento di un modello, abbina il tipo di input al tipo di modello di classificatore. Il processo di classificazione restituisce un avviso se si inviano documenti nativi a un modello di testo semplice o documenti di testo semplice a un modello di documento nativo. Per ulteriori informazioni, consulta [Modelli di classificazione della formazione](training-classifier-model.md).

1. (Facoltativo) Per il **formato di input**, è possibile scegliere il formato dei documenti di input. Il formato può essere un documento per file o un documento per riga in un singolo file. Un documento per riga si applica solo ai documenti di testo. 

1. (Facoltativo) Per la **modalità di lettura dei documenti**, è possibile sovrascrivere le azioni di estrazione del testo predefinite. Per ulteriori informazioni, consulta [Impostazione delle opzioni di estrazione del testo](idp-set-textract-options.md). 

1. **In **Dati di output**, inserisci la posizione del bucket Amazon S3 in cui Amazon Comprehend deve scrivere i dati di output del lavoro o accedervi selezionando Browse S3.** Questo bucket deve trovarsi nella stessa regione dell'API che stai chiamando. Il ruolo IAM che stai utilizzando per le autorizzazioni di accesso per il processo di classificazione deve avere autorizzazioni di scrittura per il bucket S3.

1. **(Facoltativo) Se scegli di crittografare il risultato dell'output del tuo lavoro, scegli Crittografia.** Quindi scegli se utilizzare una chiave KMS associata all'account corrente o una di un altro account.
   + Se utilizzi una chiave associata all'account corrente, scegli l'alias o l'ID della chiave per l'ID della chiave **KMS**.
   + Se utilizzi una chiave associata a un altro account, inserisci l'ARN per l'alias o l'ID della chiave in **KMS** key ID.

1. (Facoltativo) Per avviare le tue risorse in Amazon Comprehend da un VPC, inserisci l'ID VPC in **VPC** o scegli l'ID dall'elenco a discesa. 

   1. **Scegli la sottorete in Subnet (s).** Dopo aver selezionato la prima sottorete, è possibile sceglierne altre.

   1. In **Gruppi di sicurezza**, scegli il gruppo di sicurezza da utilizzare, se ne hai specificato uno. Dopo aver selezionato il primo gruppo di sicurezza, puoi sceglierne altri.
**Nota**  
Quando utilizzi un VPC con il tuo lavoro di classificazione, quello `DataAccessRole` utilizzato per le operazioni di creazione e avvio deve concedere le autorizzazioni al VPC che accede al bucket di output.

1. Scegli **Crea lavoro per creare il processo** di classificazione dei documenti.

# Lavori di analisi per la classificazione personalizzata (API)
<a name="analysis-jobs-custom-class-api"></a>

Dopo aver [creato e addestrato](train-custom-classifier-api.md) un classificatore di documenti personalizzato, è possibile utilizzare il classificatore per eseguire lavori di analisi.

Utilizzate l'[StartDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_StartDocumentClassificationJob.html)operazione per iniziare a classificare i documenti senza etichetta. Si specifica il bucket S3 che contiene i documenti di input, il bucket S3 per i documenti di output e il classificatore da utilizzare.

Per ottenere il massimo livello di precisione nell'addestramento di un modello, abbina il tipo di input al tipo di modello di classificatore. Il processo di classificazione restituisce un avviso se si inviano documenti nativi a un modello di testo semplice o documenti di testo semplice a un modello di documento nativo. Per ulteriori informazioni, consulta [Modelli di classificazione della formazione](training-classifier-model.md).

 [StartDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_StartDocumentClassificationJob.html)è asincrono. Una volta avviato il processo, utilizzate l'[DescribeDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDocumentClassificationJob.html)operazione per monitorarne l'avanzamento. Quando il `Status` campo della risposta viene visualizzato`COMPLETED`, è possibile accedere all'output nella posizione specificata.

**Topics**
+ [Utilizzando il AWS Command Line Interface](#get-started-api-customclass-cli)
+ [Usare AWS SDK per Java o SDK per Python](#get-started-api-customclass-java)

## Utilizzando il AWS Command Line Interface
<a name="get-started-api-customclass-cli"></a>

I seguenti esempi sono l'`StartDocumentClassificationJob`operazione e altri classificatori personalizzati APIs con. AWS CLI

Gli esempi seguenti utilizzano il formato dei comandi per Unix, Linux e macOS. Per Windows, sostituisci il carattere di continuazione UNIX barra rovesciata (\$1) al termine di ogni riga con un accento circonflesso (^).

Esegui un processo di classificazione personalizzato utilizzando l'`StartDocumentClassificationJob`operazione.

```
aws comprehend start-document-classification-job \
     --region region \
     --document-classifier-arn arn:aws:comprehend:region:account number:document-classifier/testDelete \
     --input-data-config S3Uri=s3://S3Bucket/docclass/file name,InputFormat=ONE_DOC_PER_LINE \
     --output-data-config S3Uri=s3://S3Bucket/output \
     --data-access-role-arn arn:aws:iam::account number:role/resource name
```

Ottieni informazioni su un classificatore personalizzato con l'ID del lavoro utilizzando l'`DescribeDocumentClassificationJob`operazione.

```
aws comprehend describe-document-classification-job \
     --region region \
     --job-id job id
```

Elenca tutti i lavori di classificazione personalizzati presenti nel tuo account utilizzando l'`ListDocumentClassificationJobs`operazione.

```
aws comprehend list-document-classification-jobs
     --region region
```

## Usare AWS SDK per Java o SDK per Python
<a name="get-started-api-customclass-java"></a>

Per esempi SDK su come avviare un processo di classificazione personalizzato, consulta. [Utilizzo `StartDocumentClassificationJob` con un AWS SDK o una CLI](example_comprehend_StartDocumentClassificationJob_section.md)

# Output per lavori di analisi asincroni
<a name="outputs-class-async"></a>

Al termine di un processo di analisi, memorizza i risultati nel bucket S3 specificato nella richiesta.

## Uscite per input di testo
<a name="outputs-class-async-text"></a>

Per entrambi i formati di documenti di input di testo (multiclasse o multietichetta), l'output del lavoro è costituito da un singolo file denominato. `output.tar.gz` È un file di archivio compresso che contiene un file di testo con l'output. 

**Output multiclasse**

Quando si utilizza un classificatore addestrato in modalità multiclasse, i risultati vengono visualizzati. `classes` Ognuna di queste `classes` è la classe utilizzata per creare l'insieme di categorie durante l'addestramento del classificatore.

Per ulteriori dettagli su questi campi di output, consulta [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)*Amazon Comprehend API* Reference.

Gli esempi seguenti utilizzano le seguenti classi che si escludono a vicenda.

```
DOCUMENTARY
SCIENCE_FICTION
ROMANTIC_COMEDY
SERIOUS_DRAMA
OTHER
```

Se il formato dei dati di input è un documento per riga, il file di output contiene una riga per ogni riga dell'input. Ogni riga include il nome del file, il numero di riga a base zero della riga di input e la classe o le classi presenti nel documento. Termina con la certezza che Amazon Comprehend ha che la singola istanza sia stata classificata correttamente.

Esempio:

```
{"File": "file1.txt", "Line": "0", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "1", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]}
{"File": "file2.txt", "Line": "2", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Documentary", "Score": 0.0372}]}
{"File": "file2.txt", "Line": "3", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}
```

Se il formato dei dati di input è un documento per file, il file di output contiene una riga per ogni documento. Ogni riga contiene il nome del file e la classe o le classi presenti nel documento. Termina con la certezza che Amazon Comprehend abbia classificato accuratamente la singola istanza.

Esempio:

```
{"File": "file0.txt", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]}
{"File": "file2.txt", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Domentary", "Score": 0.0372}]}
{"File": "file3.txt", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}
```

**Output multietichetta**

Quando si utilizza un classificatore addestrato in modalità multietichetta, i risultati vengono visualizzati. `labels` Ognuna di queste `labels` è l'etichetta utilizzata per creare l'insieme di categorie durante l'addestramento del classificatore.

Gli esempi seguenti utilizzano queste etichette uniche.

```
SCIENCE_FICTION
ACTION
DRAMA
COMEDY
ROMANCE
```

Se il formato dei dati di input è un documento per riga, il file di output contiene una riga per ogni riga dell'input. Ogni riga include il nome del file, il numero di riga a base zero della riga di input e la classe o le classi presenti nel documento. Termina con la certezza che Amazon Comprehend ha che la singola istanza sia stata classificata correttamente.

Esempio:

```
{"File": "file1.txt", "Line": "0", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "1", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "2", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "3", "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}
```

Se il formato dei dati di input è un documento per file, il file di output contiene una riga per ogni documento. Ogni riga contiene il nome del file e la classe o le classi presenti nel documento. Termina con la certezza che Amazon Comprehend abbia classificato accuratamente la singola istanza.

Esempio:

```
{"File": "file0.txt", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]}
{"File": "file1.txt", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]}
{"File": "file2.txt", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]}
{"File": "file3.txt”, "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}
```

## Output per documenti di input semistrutturati
<a name="outputs-class-async-other"></a>

Per i documenti di input semistrutturati, l'output può includere i seguenti campi aggiuntivi:
+ DocumentMetadata — Informazioni di estrazione sul documento. I metadati includono un elenco di pagine del documento, con il numero di caratteri estratti da ciascuna pagina. Questo campo è presente nella risposta se la richiesta includeva il `Byte` parametro.
+ DocumentType — Il tipo di documento per ogni pagina del documento di input. Questo campo è presente nella risposta se la richiesta includeva il `Byte` parametro.
+ Errori: errori a livello di pagina rilevati dal sistema durante l'elaborazione del documento di input. Il campo è vuoto se il sistema non ha riscontrato errori.

Per ulteriori dettagli su questi campi di output, consulta [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)*Amazon Comprehend API* Reference.

L'esempio seguente mostra l'output di un file PDF scansionato di due pagine.

```
[{ #First page output
    "Classes": [
        {
            "Name": "__label__2 ",
            "Score": 0.9993996620178223
        },
        {
            "Name": "__label__3 ",
            "Score": 0.0004330444789957255
        }
    ],
    "DocumentMetadata": {
        "PageNumber": 1,
        "Pages": 2
    },
    "DocumentType": "ScannedPDF",
    "File": "file.pdf",
    "Version": "VERSION_NUMBER"
},
#Second page output
{
    "Classes": [
        {
            "Name": "__label__2 ",
            "Score": 0.9993996620178223
        },
        {
            "Name": "__label__3 ",
            "Score": 0.0004330444789957255
        }
    ],
    "DocumentMetadata": {
        "PageNumber": 2,
        "Pages": 2
    },
    "DocumentType": "ScannedPDF",
    "File": "file.pdf",
    "Version": "VERSION_NUMBER" 
}]
```