Otimizar tabelas Iceberg
O AWS Glue é compatível com várias opções de otimização de tabela para aprimorar o gerenciamento e a performance das tabelas do Apache Iceberg usadas pelos mecanismos analíticos da AWS e pelos trabalhos de ETL. Esses otimizadores fornecem utilização eficiente do espaço em disco, melhor performance de consultas e gerenciamento de dados. Existem três tipos de otimizadores de tabela disponíveis no AWS Glue:
Compactação: a compactação de dados compacta pequenos arquivos de dados para reduzir o uso de armazenamento e melhorar a performance de leitura. Os arquivos de dados são mesclados e regravados para remover dados obsoletos e consolidar dados fragmentados em arquivos maiores e mais eficientes. Você pode configurar a compactação para execução automática.
O binpack é a estratégia de compactação padrão no Apache Iceberg. Ela combina arquivos de dados menores em arquivos maiores para um desempenho ideal. A compactação também é compatível com estratégias de classificação e ordem Z que agrupam em cluster dados semelhantes. A classificação organiza os dados com base em colunas especificadas, melhorando o desempenho da consulta para operações filtradas. A ordem Z cria conjuntos de dados ordenados que melhoram o desempenho da consulta quando várias colunas são consultadas simultaneamente. Todas as três estratégias de compactação (binpack, classificação e ordem Z) reduzem a quantidade de dados varridos pelos mecanismos de consulta, reduzindo os custos de processamento de consultas.
Retenção de snapshots: os snapshots são versões com carimbo de data e hora de uma tabela do Iceberg. As configurações de retenção de snapshots permitem que os clientes determinem por quanto tempo reter e quantos snapshots devem ser retidos. A configuração de um otimizador de retenção de snapshots pode ajudar a gerenciar a sobrecarga de armazenamento removendo snapshots antigos e desnecessários e seus arquivos subjacentes.
Exclusão de arquivos órfãos: arquivos órfãos são arquivos que não são mais referidos pelos metadados da tabela do Iceberg. Esses arquivos podem se acumular ao longo do tempo, especialmente após operações como exclusões de tabelas ou trabalhos de ETL com falha. Habilitar a exclusão de arquivos órfãos permite que o AWS Glue identifique e remova periodicamente esses arquivos desnecessários, liberando espaço de armazenamento.
É possível habilitar ou desabilitar a compactação, a retenção de snapshots e os otimizadores de exclusão de arquivos órfãos para tabelas Iceberg individuais usando o console do AWS Glue, a AWS CLI ou as operações de API do AWS Glue.
O vídeo a seguir demonstra como configurar otimizadores para tabelas do Iceberg no Catálogo de dados.