Livelli di dati consigliati - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Livelli di dati consigliati

Se lavori con dati non sensibili, ad esempio dati che non contengono informazioni di identificazione personale (PII), ti consigliamo di utilizzare almeno tre diversi livelli di dati in un data lake su. Cloud AWS

Tuttavia, potrebbero essere necessari livelli aggiuntivi a seconda della complessità dei dati e dei casi d'uso. Ad esempio, se lavori con dati sensibili, come dati PII, ti consigliamo di utilizzare un bucket Amazon Simple Storage Service (Amazon S3) S3) aggiuntivo come landing zone. Quindi mascheri i dati prima che vengano spostati nel livello di dati grezzi. Per ulteriori informazioni su questo argomento, consulta la sezione Gestione dei dati sensibili di questa guida.

Ogni livello di dati deve avere un bucket Amazon S3 individuale. La tabella seguente descrive i livelli di dati consigliati.

Nome del livello di dati Descrizione Esempio di strategia politica del ciclo di vita
Crudo

Contiene i dati grezzi e non elaborati. I dati vengono inseriti nel data lake in questo livello.

Se possibile, dovresti mantenere il formato di file originale e attivare il controllo delle versioni nel bucket Amazon S3.

Dopo un anno, sposta i file nella classe di storage Amazon S3 ad accesso infrequente (IA). Dopo due anni in Amazon S3 IA, archiviali nelle classi di storage Amazon S3 Glacier.
Fase

Contiene dati intermedi ed elaborati ottimizzati per il consumo (ad esempio file raw convertiti da CSV ad Apache Parquet o trasformazioni di dati).

Un AWS Glue processo legge i file dal livello raw e convalida i dati. Il AWS Glue lavoro memorizza quindi i dati in un file in formato Apache Parquet e i metadati vengono archiviati in una tabella in. AWS Glue Data Catalog

I dati possono essere eliminati dopo un periodo di tempo definito o in base ai requisiti dell'organizzazione.

Alcuni derivati dei dati, come una trasformazione Apache Avro di un formato JSON originale, possono essere rimossi dal data lake dopo un periodo di tempo più breve, ad esempio dopo 90 giorni.

Analisi Contiene i dati aggregati per i casi d'uso specifici in un formato pronto per l'uso, come Apache Parquet. I dati possono essere spostati su Amazon S3 IA e quindi eliminati dopo un periodo di tempo definito o in base ai requisiti dell'organizzazione.
Nota

È necessario valutare tutte le strategie politiche consigliate per il ciclo di vita rispetto alle esigenze organizzative, ai requisiti normativi, ai modelli di query e alle considerazioni relative ai costi.