Best practice

Consigliamo le seguenti best practice per accedere ai dati archiviati:

Per set di dati di archiviazione di grandi dimensioni, consigliamo di creare tabelle AWS Glue sopra i dati in modo che possano essere letti utilizzando motori di query come Athena e Amazon Redshift. Sia Athena che Amazon Redshift offrono la scalabilità orizzontale delle prestazioni delle query. Utilizzano anche un pay-per-query modello che è conveniente in uno scenario di interrogazione una tantum. Inoltre, Amazon Redshift è dotato di motori Advanced Query Accelerator (AQUA), che velocizzano le prestazioni di lettura senza costi aggiuntivi.
I dati archiviati scaricati regolarmente in Amazon S3 non devono essere archiviati come heap dump. Invece, dovrebbe essere salvato come nuova partizione. Una partizione di data separerà i dati in dimensioni di data (ad esempio,year=<value>/month=<value>/day=<value>). Ciò è estremamente utile in due situazioni:
- Se le tabelle AWS Glue vengono create dai crawler di AWS Glue, queste partizioni fungono da pseudo colonne. Ciò migliora le prestazioni di lettura limitando i dati scansionati alle partizioni nell'intervallo di query.
- Questo aiuta in un'operazione di ripristino di S3 Glacier quando si ripristina solo un sottoinsieme dell'oggetto come S3 Standard.
I crawler di AWS Glue mostrano un grande valore quando i dati archiviati salvati in Amazon S3 vengono partizionati fisicamente. Ogni volta che i dati vengono scaricati come nuova partizione di prefisso, il crawler analizza solo la nuova partizione e aggiorna i metadati per quella partizione. Se lo schema della tabella cambia, tali modifiche verranno acquisite nei metadati a livello di partizione.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Classi di storage S3 Glacier

Rimozione