Best practice - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Best practice

Consigliamo le seguenti best practice per accedere ai dati archiviati:

  • Per set di dati di archiviazione di grandi dimensioni, consigliamo di creare tabelle AWS Glue sopra i dati in modo che possano essere letti utilizzando motori di query come Athena e Amazon Redshift. Sia Athena che Amazon Redshift offrono la scalabilità orizzontale delle prestazioni delle query. Utilizzano anche un pay-per-query modello che è conveniente in uno scenario di interrogazione una tantum. Inoltre, Amazon Redshift è dotato di motori Advanced Query Accelerator (AQUA), che velocizzano le prestazioni di lettura senza costi aggiuntivi.

  • I dati archiviati scaricati regolarmente in Amazon S3 non devono essere archiviati come heap dump. Invece, dovrebbe essere salvato come nuova partizione. Una partizione di data separerà i dati in dimensioni di data (ad esempio,year=<value>/month=<value>/day=<value>). Ciò è estremamente utile in due situazioni:

    • Se le tabelle AWS Glue vengono create dai crawler di AWS Glue, queste partizioni fungono da pseudo colonne. Ciò migliora le prestazioni di lettura limitando i dati scansionati alle partizioni nell'intervallo di query.

    • Questo aiuta in un'operazione di ripristino di S3 Glacier quando si ripristina solo un sottoinsieme dell'oggetto come S3 Standard.

  • I crawler di AWS Glue mostrano un grande valore quando i dati archiviati salvati in Amazon S3 vengono partizionati fisicamente. Ogni volta che i dati vengono scaricati come nuova partizione di prefisso, il crawler analizza solo la nuova partizione e aggiorna i metadati per quella partizione. Se lo schema della tabella cambia, tali modifiche verranno acquisite nei metadati a livello di partizione.