Práticas recomendadas

Recomendamos seguir as práticas recomendadas para acesso aos dados arquivados:

Para grandes conjuntos de dados de arquivamento, recomendamos criar tabelas do AWS Glue para dados para que eles possam ser lidos usando mecanismos de consulta como o Athena e o Amazon Redshift. Tanto o Athena quanto o Amazon Redshift fornecem escalabilidade horizontal da performance da consulta. Eles também usam um pay-per-query modelo econômico em um cenário de consulta única. Além disso, o Amazon Redshift tem mecanismos de Advanced Query Accelerator (AQUA) integrados, o que acelera a performance de leitura sem custo adicional.
Os dados arquivados transferidos regularmente no Amazon S3 não devem ser armazenados como um despejo de heap. Em vez disso, devem ser salvos como uma nova partição. Uma partição de data separará os dados em dimensões de data (por exemplo, year=<value>/month=<value>/day=<value>). Isso é extremamente benéfico em duas situações:
- Se as tabelas do AWS Glue forem criadas pelos crawlers do AWS Glue, essas partições funcionarão como pseudocolunas. Isso melhora a performance de leitura ao restringir os dados verificados às partições na consulta de intervalo.
- Isso ajuda em uma operação de restauração do S3 Glacier quando você está restaurando somente um subconjunto do objeto como S3 Standard.
Os crawlers do AWS Glue mostram grande valor quando os dados arquivados salvos no Amazon S3 são particionados fisicamente. Toda vez que esses dados são descarregados como uma nova partição de prefixo, o crawler verifica somente a nova partição e atualiza os metadados dessa partição. Se o esquema da tabela mudar, essas alterações serão capturadas nos metadados em nível de partição.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Classes de armazenamento do S3 Glacier

Limpeza