Migração completa de dados - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Migração completa de dados

A migração completa de dados recria os arquivos de dados e os metadados. Essa abordagem leva mais tempo e requer recursos computacionais adicionais em comparação com a migração local. No entanto, a migração total de dados oferece oportunidades significativas para melhorar a qualidade da tabela e otimizar o armazenamento de dados e os padrões de acesso.

Durante a migração completa dos dados, você pode realizar várias operações benéficas, como validação de dados para garantir integridade e exatidão, modificações no esquema para melhor atender aos requisitos atuais e ajustes na estratégia de partição para melhorar o desempenho das consultas. Você também pode reordenar os dados para otimizar padrões de acesso comuns, implementar o particionamento oculto do Iceberg para melhorar a eficiência da consulta e realizar a conversão do formato de arquivo (por exemplo, de CSV para Parquet), se desejar.

Esses recursos tornam a migração completa de dados ideal para a transição para o formato Iceberg e para refinar e otimizar de forma abrangente sua estratégia de armazenamento de dados. Embora a migração total dos dados exija mais tempo e recursos iniciais, as melhorias resultantes na qualidade dos dados, na organização e no desempenho das consultas podem proporcionar benefícios a longo prazo. Para implementar a migração completa de dados, use uma das seguintes opções:

  • Use a declaração CREATE TABLE ... AS SELECT (CTAS) no Spark (no Amazon EMR ou) AWS Glue ou no Athena. Você pode definir a especificação da partição e as propriedades da tabela para a nova tabela Iceberg usando as TBLPROPERTIES cláusulas PARTITIONED BY e. Você pode alterar o esquema e o particionamento da nova tabela de acordo com suas necessidades, em vez de herdá-los da tabela de origem.

  • Leia a tabela de origem e grave os dados como uma nova tabela Iceberg usando o Spark no Amazon EMR ou. AWS Glue Para obter mais informações, consulte Criação de uma tabela na documentação do Iceberg.