Considerações e limitações para trabalhos de manutenção
O Amazon S3 oferece operações de manutenção para aprimorar a performance das tabelas e dos buckets de tabela do S3. Essas opções são compactação de arquivos, gerenciamento de snapshots e remoção de arquivos não referenciados. Veja a seguir as limitações e considerações para essas opções de gerenciamento.
Tópicos
Considerações para compactação
As considerações a seguir se aplicam à compactação. Para ter mais informações sobre compactação, consulte Manutenção da funcionalidade Tabelas do S3.
-
A compactação só é compatível com os tipos de arquivo Apache Parquet.
-
A compactação não oferece suporte ao seguinte tipo de dados: Fixo.
-
A compactação não oferece suporte aos seguintes tipos de compressão:
brotli
elz4
.
Considerações para gerenciamento de snapshots
As considerações a seguir se aplicam ao gerenciamento de snapshots. Para ter mais informações sobre o gerenciamento de snapshots, consulte Manutenção da funcionalidade Tabelas do S3.
-
Os snapshots serão preservados somente quando ambos os critérios forem satisfeitos: o número mínimo de snapshots a serem mantidos e o período de retenção especificado.
-
O gerenciamento de snapshots exclui metadados de snapshots expirados do Apache Iceberg, evitando consultas de viagem no tempo para snapshots expirados e, opcionalmente, excluindo arquivos de dados associados.
-
O gerenciamento de snapshots não oferece suporte a valores de retenção que você configura como propriedades de tabela do Iceberg no arquivo
metadata.json
ou por meio de um comando SQLALTER TABLE SET TBLPROPERTIES
, incluindo retenção baseada em ramificação ou tag. O gerenciamento de snapshots é desabilitado quando você configura uma política de retenção baseada em ramificação ou tag, ou configura uma política de retenção no arquivometadata.json
que seja maior do que os valores configurados por meio da APIPutTableMaintenanceConfiguration
. Nesses casos, o S3 não expirará nem removerá snapshots e você precisará excluir manualmente os snapshots ou remover as propriedades de tabela do Iceberg para evitar cobranças de armazenamento.
Considerações para remoção de arquivos não referenciados
As considerações a seguir se aplicam à remoção de arquivos não referenciados. Para ter mais informações sobre a remoção de arquivos não referenciados, consulte Manutenção de buckets de tabela do Amazon S3.
-
A remoção de arquivos não referenciados exclui arquivos de dados e metadados que não são mais referenciados pelos metadados do Iceberg quando o horário de criação é anterior ao período de retenção.
Limites para manutenção de tabelas e buckets de tabela do S3
Operação de manutenção | Propriedade | Configurável ao nível do bucket de tabela? | Configurável ao nível da tabela? | Valor padrão | Valor mínimo |
---|---|---|---|---|---|
Compactação | targetFileSizeMB | Não | Sim | 512 MB | 64 MB |
Gerenciamento de snapshots | minimumSnapshots | Não | Sim | 1 | 1 |
Gerenciamento de snapshots | maximumSnapshotAge | Não | Sim | 120 horas | 1 hora |
Remoção de arquivos não referenciados | unreferencedDays | Sim | Não | 3 dias | 1 dia |
Remoção de arquivos não referenciados | nonCurrentDays | Sim | Não | 10 dias | 1 dia |
nota
O serviço Tabelas do S3 aplica o tamanho padrão do grupo de linhas de parquets de 128 MB.