

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# 1. Gestione incentrata sui dati
<a name="data-management"></a>

La gestione dei dati è la pratica volta a garantire che i dati utilizzati nella formazione, nei test e nell'inferenza siano gestiti, protetti e convalidati correttamente. Quando si creano modelli su larga scala, i dati sono la risorsa principale che consente prestazioni elevate dei modelli.


|  |  | 
| --- |--- |
| **1.1 Archivio dati** | Un archivio di dati richiede la capacità di tracciare i dati e vederne il punto di origine. Quando vengono aggiunti o rimossi nuovi dati, il data repository registra le modifiche in fase di ripristino. point-in-time L'archivio di dati deve tenere conto del modo in cui i dati delle etichette vengono tracciati ed elaborati e di come vengono tracciati gli artefatti dei dati intermedi. | 
| **1.2 Integrazione di diverse fonti di dati** | A seconda dell'applicazione, l'addestramento del modello potrebbe richiedere dati provenienti da diverse fonti. La progettazione e la manutenzione di un manifesto che informi i professionisti del machine learning sulle fonti di dati disponibili e sul modo in cui interagiscono è fondamentale per la creazione di modelli. | 
| **1.3 Convalida dello schema dei dati** | Per alimentare i dati dei modelli, è importante che i dati di addestramento siano omogenei. Potrebbero essere necessarie trasformazioni o altre analisi esplorative per i dati archiviati in soluzioni data lake come Amazon Simple Storage Service (Amazon S3) o in archivi di dati documentali. | 
| **1.4 Versionamento e derivazione dei dati** | Quando si addestrano modelli che potrebbero essere utilizzati in produzione, è necessario essere in grado di riprodurre i risultati e disporre di un modo affidabile per eseguire [studi di ablazione](https://arxiv.org/abs/1901.08644) per comprendere meglio le prestazioni complessive del modello. Il monitoraggio dello stato dei dati di addestramento è fondamentale per questa riproducibilità. Strumenti come [Data Version Control (DVC)](https://github.com/treeverse/dvc) possono aiutarvi in questo senso. | 
| **1.5 Flusso di lavoro di etichettatura** | Nei casi in cui i dati etichettati non sono disponibili all'inizio del progetto, la creazione di dati etichettati è spesso un passaggio necessario. Strumenti come Amazon SageMaker Ground Truth richiedono che i dati di input siano strutturati in modo appropriato e richiedono un processo di etichettatura definito e testato. È necessario utilizzare una forza lavoro composta da etichettatori interni o esterni. I dati devono quindi essere convalidati, utilizzando approcci di etichettatura ridondanti o di apprendimento automatico per identificare valori anomali o errori nel set di dati di formazione. | 
| **1.6 Archiviazione delle funzionalità online e offline** | Il sistema ML dispone di un [Feature Store](https://docs.aws.amazon.com/sagemaker/latest/dg/feature-store.html) o di un archivio centralizzato per le funzionalità e i metadati associati in modo che sia possibile riutilizzare le funzionalità o gli input del modello. Puoi creare un archivio online o offline. Utilizza un negozio online per casi d'uso di inferenza in tempo reale e a bassa latenza. Utilizza un negozio offline per la formazione e l'inferenza in batch.  | 