As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Selecionar uma estratégia de migração
Ao fazer a transição para o formato Iceberg, a escolha entre a migração local e a migração completa é crucial. Para determinar a abordagem mais adequada às suas necessidades específicas, considere as seguintes perguntas e recomendações:
Pergunta |
Recomendação |
Qual é o formato do arquivo de dados (por exemplo, CSV ou Apache Parquet)?
|
-
Considere a migração local se o formato do arquivo de tabela for Parquet, ORC ou Avro.
-
Para outros formatos, como CSV, JSON e assim por diante, use a migração de dados completa.
|
Você quer atualizar ou consolidar o esquema da tabela?
|
-
Se você quiser desenvolver o esquema da tabela usando os recursos nativos do Iceberg, considere a migração local. Por exemplo, você pode renomear colunas após a migração. (O esquema pode ser alterado na camada de metadados do Iceberg.)
-
Se você quiser remover colunas inteiras porque elas não são mais necessárias, recomendamos que você use a migração de dados completa.
|
A tabela se beneficiaria com a mudança da estratégia de partição?
|
-
Se a abordagem de particionamento do Iceberg atender aos seus requisitos (por exemplo, novos dados são armazenados usando o novo layout de partição enquanto as partições existentes permanecem como estão), considere a migração local.
-
Se você quiser usar partições ocultas em sua tabela, considere a migração completa dos dados. Para obter mais informações sobre partições ocultas, consulte a seção Práticas recomendadas.
|
A tabela se beneficiaria com a adição ou alteração da estratégia de ordem de classificação?
|
-
Adicionar ou alterar a ordem de classificação dos seus dados exige a reescrita do conjunto de dados. Nesse caso, considere usar a migração de dados completa.
-
Para tabelas grandes em que é extremamente caro reescrever todas as partições da tabela, considere usar a migração local e executar a compactação (com a classificação ativada) para as partições acessadas com mais frequência.
|
A tabela tem muitos arquivos pequenos?
|
-
A mesclagem de arquivos pequenos em arquivos maiores exige a regravação do conjunto de dados. Nesse caso, considere usar a migração de dados completa.
-
Para tabelas grandes em que é extremamente caro reescrever todas as partições da tabela, considere usar a migração local e executar a compactação (com a classificação ativada) para as partições acessadas com mais frequência.
|