As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Práticas recomendadas
Recomendamos seguir as práticas recomendadas para acesso aos dados arquivados:
-
Para grandes conjuntos de dados de arquivamento, recomendamos criar tabelas do AWS Glue para dados para que eles possam ser lidos usando mecanismos de consulta como o Athena e o Amazon Redshift. Tanto o Athena quanto o Amazon Redshift fornecem escalabilidade horizontal da performance da consulta. Eles também usam um modelo de pagamento por consulta, que é econômico em um cenário de consulta única. Além disso, o Amazon Redshift tem mecanismos de Advanced Query Accelerator (AQUA) integrados, o que acelera a performance de leitura sem custo adicional.
-
Os dados arquivados transferidos regularmente no Amazon S3 não devem ser armazenados como um despejo de heap. Em vez disso, devem ser salvos como uma nova partição. Uma partição de data separará os dados em dimensões de data (por exemplo,
year=<value>/month=<value>/day=<value>). Isso é extremamente benéfico em duas situações:-
Se as tabelas do AWS Glue forem criadas pelos crawlers do AWS Glue, essas partições funcionarão como pseudocolunas. Isso melhora a performance de leitura ao restringir os dados verificados às partições na consulta de intervalo.
-
Isso ajuda em uma operação de restauração do S3 Glacier quando você está restaurando somente um subconjunto do objeto como S3 Standard.
-
-
Os crawlers do AWS Glue mostram grande valor quando os dados arquivados salvos no Amazon S3 são particionados fisicamente. Toda vez que esses dados são descarregados como uma nova partição de prefixo, o crawler verifica somente a nova partição e atualiza os metadados dessa partição. Se o esquema da tabela mudar, essas alterações serão capturadas nos metadados em nível de partição.