Selecionar uma estratégia de migração - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Selecionar uma estratégia de migração

Ao fazer a transição para o formato Iceberg, a escolha entre a migração local e a migração completa é crucial. Para determinar a abordagem mais adequada às suas necessidades específicas, considere as seguintes perguntas e recomendações:

Pergunta Recomendação

Qual é o formato do arquivo de dados (por exemplo, CSV ou Apache Parquet)?

  • Considere a migração local se o formato do arquivo de tabela for Parquet, ORC ou Avro.

  • Para outros formatos, como CSV, JSON e assim por diante, use a migração de dados completa.

Você quer atualizar ou consolidar o esquema da tabela?

  • Se você quiser desenvolver o esquema da tabela usando os recursos nativos do Iceberg, considere a migração local. Por exemplo, você pode renomear colunas após a migração. (O esquema pode ser alterado na camada de metadados do Iceberg.)

  • Se você quiser remover colunas inteiras porque elas não são mais necessárias, recomendamos que você use a migração de dados completa.

A tabela se beneficiaria com a mudança da estratégia de partição?

  • Se a abordagem de particionamento do Iceberg atender aos seus requisitos (por exemplo, novos dados são armazenados usando o novo layout de partição enquanto as partições existentes permanecem como estão), considere a migração local.

  • Se você quiser usar partições ocultas em sua tabela, considere a migração completa dos dados. Para obter mais informações sobre partições ocultas, consulte a seção Práticas recomendadas.

A tabela se beneficiaria com a adição ou alteração da estratégia de ordem de classificação?

  • Adicionar ou alterar a ordem de classificação dos seus dados exige a reescrita do conjunto de dados. Nesse caso, considere usar a migração de dados completa.

  • Para tabelas grandes em que é extremamente caro reescrever todas as partições da tabela, considere usar a migração local e executar a compactação (com a classificação ativada) para as partições acessadas com mais frequência.

A tabela tem muitos arquivos pequenos?

  • A mesclagem de arquivos pequenos em arquivos maiores exige a regravação do conjunto de dados. Nesse caso, considere usar a migração de dados completa.

  • Para tabelas grandes em que é extremamente caro reescrever todas as partições da tabela, considere usar a migração local e executar a compactação (com a classificação ativada) para as partições acessadas com mais frequência.