

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Storage
<a name="storage"></a>


| **Domanda** | **Example response** | 
| --- | --- | 
| Dove verranno archiviati i dati di allenamento? | Nell'archiviazione cloud (ad esempio, Amazon S3, archiviazione di file, archiviazione a blocchi o archiviazione di oggetti), nell'archiviazione locale e così via. | 
| Quali sono i requisiti di archiviazione per i dati di addestramento e gli artefatti del modello (ad esempio, capacità, durabilità, disponibilità)? | Storage su scala petabyte, elevata durabilità (99,99999% di durabilità), alta disponibilità e così via. | 
| Quali sono i requisiti di conservazione e backup dei dati per i dati di addestramento e gli artefatti del modello? | Conservazione dei dati per *x* anni, backup giornalieri, backup fuori sede e così via. | 
| Quali formati di file vengono utilizzati principalmente per archiviare i set di dati di addestramento AI (ad esempio, CSV, JSON, Parquet,)? HDF5 | File Parquet per dati strutturati e HDF5 per array multidimensionali di grandi dimensioni e dati non strutturati come immagini e testo. Utilizziamo formati specializzati, ad esempio per ottimizzare il caricamento dei dati durante l' TFRecord allenamento. | 
| Come sono organizzati i set di dati di formazione: come singoli file, in database o utilizzando formati di dati AI specializzati? | I set di dati di piccole e medie dimensioni vengono archiviati come singoli file Parquet nello storage a oggetti per garantire la massima flessibilità. I set di dati di grandi dimensioni vengono archiviati in un database distribuito (Cassandra) per gestire la scalabilità. | 
| Utilizzate tecniche di compressione o codifica dei dati specifiche per i dati di addestramento generativo dell'intelligenza artificiale? | Per i dati tabulari, utilizziamo tecniche di codifica dei dizionari e di bit-packing disponibili in Parquet. Per le immagini, utilizziamo la compressione JPEG con perdita di dati con impostazioni di qualità ottimizzate per i nostri modelli. | 
| Come gestite il controllo delle versioni e l'archiviazione di diverse iterazioni di set di dati di addestramento? Che impatto ha questo sulle vostre esigenze complessive di storage? | Utilizziamo un sistema di versione dei dati (DVC) integrato con la nostra piattaforma ML. | 