Práticas recomendadas

Recomendamos que você siga as práticas recomendadas técnicas e de armazenamento. Essas melhores práticas podem ajudar você a aproveitar ao máximo sua arquitetura centrada em dados.

Práticas recomendadas de armazenamento para big data

A tabela a seguir descreve uma prática recomendada comum para armazenar arquivos para uma carga de processamento de big data no Amazon S3. A última coluna é um exemplo de uma política de ciclo de vida que você pode definir. Se o Amazon S3 Intelligent-Tiering estiver habilitado (o que proporciona economia automática de custos de armazenamento quando os padrões de acesso aos dados mudam automaticamente), você não precisa definir manualmente a política.

Nome da camada de dados	Descrição	Exemplo de estratégia de política de ciclo de vida
Bruto	Contém dados brutos e não processados Nota: Para uma fonte de dados externa, a camada de dados brutos geralmente é uma cópia 1:1 dos dados, mas AWS os dados podem ser particionados por chaves com base em Região da AWS ou na data durante o processo de ingestão.	Depois de um ano, mova os arquivos para a classe de armazenamento S3 Standard-IA. Depois de dois anos no S3 Standard-IA, arquive os arquivos no Amazon Simple Storage Service Glacier (Amazon S3 Glacier). O Amazon Glacier (serviço autônomo original baseado em cofre) não aceitará mais novos clientes a partir de 15 de dezembro de 2025, sem impacto para os clientes existentes. O Amazon Glacier é um serviço independente APIs que armazena dados em cofres e é diferente das classes de armazenamento Amazon S3 e Amazon S3 Glacier. Seus dados existentes permanecerão seguros e acessíveis no Amazon Glacier indefinidamente. Nenhuma migração é necessária. Para armazenamento de arquivamento de baixo custo e longo prazo, AWS recomenda as classes de armazenamento Amazon S3 Glacier, que oferecem uma experiência superior ao cliente com APIs base em buckets S3, disponibilidade Região da AWS total, custos mais baixos e integração de serviços. AWS Se você quiser recursos aprimorados, considere migrar para as classes de armazenamento do Amazon S3 Glacier usando AWS nossa orientação de soluções para transferir dados dos cofres do Amazon S3 para as classes de armazenamento do Amazon S3 Glacier.
Estágio	Contém dados intermediários processados que são otimizados para consumo Exemplo: arquivos brutos convertidos em CSV para Apache Parquet ou transformações de dados	Você pode excluir dados após um período definido ou de acordo com os requisitos da sua organização. Você pode remover alguns derivados de dados (por exemplo, uma transformação Apache Avro de um formato JSON original) do data lake após um período menor (por exemplo, após 90 dias).
Analytics	Contém os dados agregados para seus casos de uso específicos em um formato pronto para consumo Exemplo: Apache Parquet	Você pode mover dados para o S3 Standard-IA e, em seguida, excluí-los após um período definido ou de acordo com os requisitos da sua organização.

O diagrama a seguir mostra um exemplo de uma estratégia de particionamento (correspondente a uma pasta/prefixo do S3) que você pode usar em todas as camadas de dados. Recomendamos que você escolha uma estratégia de particionamento com base em como seus dados são usados downstream. Por exemplo, se os relatórios forem criados com base em seus dados (em que as consultas mais comuns no relatório filtram os resultados com base na região e nas datas), certifique-se de incluir as regiões e as datas como partições para melhorar a performance e o runtime da consulta.

Diagrama da estratégia de particionamento

Práticas recomendadas técnicas

As melhores práticas técnicas dependem das tecnologias específicas Serviços da AWS e de processamento que você usa para projetar sua arquitetura centrada em dados. No entanto, recomendamos que você tenha em mente as práticas recomendadas a seguir. Essas práticas recomendadas se aplicam aos casos de uso de processamento de dados típicos.

Área	Prática recomendada
SQL	Reduza a quantidade de dados que devem ser consultados projetando atributos em seus dados. Em vez de analisar a tabela inteira, você pode usar a projeção de dados para verificar e retornar somente algumas colunas obrigatórias na tabela. Evite junções grandes, se possível, pois as junções entre várias tabelas podem afetar significativamente a performance devido às demandas intensivas de recursos.
Apache Spark	Otimize os aplicativos Spark com o particionamento da carga de trabalho no AWS Glue (blog de AWS Big Data). Otimize o gerenciamento de memória no AWS Glue (blog de AWS Big Data).
Design de banco de dados	Siga as melhores práticas de arquitetura para bancos de dados (AWS Architecture Center).
Remoção de dados	Use a remoção de partições do lado do servidor com o `catalogPartitionPredicate`.
Escalabilidade	Compreender e implementar a escalabilidade horizontal.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Automação e controle de acesso

Perguntas frequentes