

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Formato dei set di dati e parametro obiettivo per la classificazione del testo
<a name="text-classification-data-format-and-metric"></a>

In questa sezione apprenderemo i formati disponibili per i set di dati utilizzati nella classificazione del testo e il parametro utilizzato per valutare la qualità predittiva dei modelli di machine learning candidati. Le metriche calcolate per i candidati vengono specificate utilizzando una serie di [MetricDatum](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_MetricDatum.html)tipi.

## Formati di set di dati
<a name="text-classification-data-format"></a>

Autopilot supporta dati tabulari formattati come file CSV o come file Parquet. per i dati tabulari, ogni colonna contiene una funzionalità con un tipo di dati specifico e ogni riga contiene un'osservazione. Le proprietà di questi due formati di file differiscono notevolmente.
+ **CSV** (comma-separated-values) è un formato di file basato su righe che archivia i dati in testo semplice leggibile dall'uomo, una scelta popolare per lo scambio di dati in quanto sono supportati da un'ampia gamma di applicazioni.
+ **Parquet** è un formato di file basato su colonne in cui i dati vengono archiviati ed elaborati in modo più efficiente rispetto ai formati di file basati su righe. Ciò li rende un'opzione migliore per i problemi relativi ai big data.

I **tipi di dati** accettati per le colonne includono testo numerico, categorico.

Autopilot supporta la creazione di modelli di apprendimento automatico su set di dati di grandi dimensioni fino a centinaia di. GBs Per dettagli sui limiti di risorse predefiniti per i set di dati di input e su come aumentarli, consulta le quote di [Amazon SageMaker Autopilot](https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-quotas.html).

## Parametro obiettivo
<a name="text-classification-objective-metric"></a>

L'elenco seguente contiene i nomi dei parametri attualmente disponibili per misurare le prestazioni dei modelli per la classificazione del testo.

**`Accuracy`**  
 Il rapporto tra il numero di elementi classificati correttamente e il numero totale di elementi classificati (correttamente e erroneamente). La precisione misura quanto i valori delle classi previsti si avvicinano ai valori effettivi. I valori per i parametri di precisione variano tra zero (0) e uno (1). Un valore pari a 1 indica una perfetta precisione e 0 indica una perfetta imprecisione.