Le migliori pratiche di archiviazione per i big data Migliori pratiche tecniche

Best practice

Ti consigliamo di seguire le migliori pratiche tecniche e di archiviazione. Queste best practice possono aiutarti a ottenere il massimo dalla tua architettura incentrata sui dati.

Le migliori pratiche di archiviazione per i big data

La tabella seguente descrive una best practice comune per archiviare file per un carico di elaborazione di big data su Amazon S3. L'ultima colonna è un esempio di politica del ciclo di vita che puoi impostare. Se Amazon S3 Intelligent-Tiering è abilitato (che offre risparmi automatici sui costi di storage quando i modelli di accesso ai dati cambiano automaticamente), non è necessario impostare manualmente la policy.

Nome del livello di dati	Descrizione	Esempio di strategia politica del ciclo di vita
Raw	Contiene dati grezzi e non elaborati Nota: per un'origine dati esterna, il livello di dati non elaborati è in genere una copia 1:1 dei dati, ma i dati possono essere partizionati mediante chiavi in base AWS alla Regione AWS o alla data durante il processo di ingestione.	Dopo un anno, sposta i file nella classe di storage S3 Standard-IA. Dopo due anni in S3 Standard-IA, archivia i file in Amazon Simple Storage Service Glacier (Amazon S3 Glacier). Amazon Glacier (servizio autonomo originale basato su vault) non accetterà più nuovi clienti a partire dal 15 dicembre 2025, senza alcun impatto sui clienti esistenti. Amazon Glacier è un servizio APIs autonomo che archivia i dati in vault ed è distinto dalle classi di storage Amazon S3 e Amazon S3 Glacier. I dati esistenti rimarranno sicuri e accessibili in Amazon Glacier a tempo indeterminato. Non è richiesta alcuna migrazione. Per uno storage di archiviazione a lungo termine a basso costo, AWS consiglia le classi di storage Amazon S3 Glacier, che offrono un'esperienza cliente superiore con disponibilità Regione AWS completa, costi inferiori e integrazione dei servizi APIs basata su bucket S3. AWS Se desideri funzionalità avanzate, prendi in considerazione la migrazione alle classi di storage Amazon S3 Glacier utilizzando la AWS nostra Solutions Guidance per il trasferimento di dati dai vault Amazon S3 alle classi di storage Amazon S3 Glacier.
Stage	Contiene dati elaborati intermedi ottimizzati per il consumo Esempio: file raw convertiti o trasformazioni di dati da CSV ad Apache Parquet	È possibile eliminare i dati dopo un periodo di tempo definito o in base ai requisiti dell'organizzazione. È possibile rimuovere alcuni dati derivati (ad esempio, una trasformazione Apache Avro di un formato JSON originale) dal data lake dopo un periodo di tempo più breve (ad esempio, dopo 90 giorni).
Analisi	Contiene i dati aggregati per i casi d'uso specifici in un formato pronto per il consumo Esempio: Apache Parquet	Puoi spostare i dati in S3 Standard-IA e quindi eliminarli dopo un periodo di tempo definito o in base ai requisiti dell'organizzazione.

Il diagramma seguente mostra un esempio di strategia di partizionamento (corrispondente a una cartella/prefisso S3) che puoi utilizzare su tutti i livelli di dati. Ti consigliamo di scegliere una strategia di partizionamento basata su come i dati vengono utilizzati a valle. Ad esempio, se i report sono basati sui dati (in cui le query più comuni sul rapporto filtrano i risultati in base all'area e alle date), assicurati di includere le aree e le date come partizioni per migliorare le prestazioni e il tempo di esecuzione delle query.

Diagramma della strategia di partizionamento

Migliori pratiche tecniche

Le migliori pratiche tecniche dipendono dalle tecnologie specifiche Servizi AWS e di elaborazione utilizzate per progettare un'architettura incentrata sui dati. Tuttavia, ti consigliamo di tenere a mente le seguenti best practice. Queste best practice si applicano ai casi d'uso tipici dell'elaborazione dei dati.

Area	Best practice
SQL	Riduci la quantità di dati che devono essere interrogati proiettando gli attributi sui dati. Invece di analizzare l'intera tabella, è possibile utilizzare la proiezione dei dati per scansionare e restituire solo alcune colonne obbligatorie della tabella. Se possibile, evita i join di grandi dimensioni, poiché i join tra più tabelle possono influire in modo significativo sulle prestazioni a causa delle loro esigenze che richiedono molte risorse.
Apache Spark	Ottimizza le applicazioni Spark con il partizionamento del carico di lavoro in (blog Big Data). AWS Glue AWS Ottimizza la gestione della memoria in AWS Glue (blog AWS Big Data).
Progettazione di database	Segui le migliori pratiche di architettura per i database (AWS Architecture Center).
Potatura dei dati	Utilizza l'eliminazione delle partizioni lato server con. `catalogPartitionPredicate`
Dimensionamento	Comprendi e implementa il ridimensionamento orizzontale.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Automazione e controllo degli accessi

Domande frequenti