Consideraciones y limitaciones de los trabajos de mantenimiento - Amazon Simple Storage Service

Consideraciones y limitaciones de los trabajos de mantenimiento

Amazon S3 ofrece operaciones de mantenimiento para mejorar el rendimiento de las tablas o los buckets de tablas de S3. Estas opciones son la compactación de archivos, la administración de instantáneas y la eliminación de archivos sin referencias. A continuación, se indican las limitaciones y consideraciones para estas opciones de administración.

Consideraciones para la compactación

Las siguientes consideraciones se aplican a la compactación. Para obtener más información sobre la compactación, consulte Mantenimiento de Tablas de S3.

  • La compactación solo se admite en los tipos de archivo Apache Parquet.

  • La compactación no admite el tipo de datos fijo.

  • La compactación no admite los tipos de compresión brotli e lz4.

Consideraciones sobre la administración de instantáneas

Las siguientes consideraciones se aplican a la administración de instantáneas. Para obtener más información sobre la administración de instantáneas, consulte Mantenimiento de Tablas de S3.

  • Las instantáneas se conservarán solo cuando se cumplan ambos criterios: el número mínimo de instantáneas que se deben conservar y el periodo de retención especificado.

  • La administración de instantáneas elimina los metadatos de las instantáneas caducadas de Apache Iceberg, lo que evita que las consultas sobre las instantáneas caducadas viajen en el tiempo y, de forma opcional, elimina los archivos de datos asociados.

  • La administración de instantáneas no admite los valores de retención que configure como propiedades de la tabla de Iceberg en el archivo metadata.json o mediante un comando SQL ALTER TABLE SET TBLPROPERTIES, incluida la retención basada en ramificaciones o etiquetas. La administración de instantáneas se desactiva cuando configura una política de retención basada en ramificaciones o etiquetas, o configura una política de retención en el archivo metadata.json que es más larga que los valores configurados a través de la API PutTableMaintenanceConfiguration. En estos casos, S3 no hará caducar ni eliminará instantáneas y tendrá que eliminar manualmente las instantáneas o eliminar las propiedades de la tabla de Iceberg para evitar cargos de almacenamiento.

Consideraciones sobre la eliminación de archivos sin referencias

A continuación, se indican las consideraciones que se aplican a la eliminación de archivos sin referencias. Para obtener más información sobre la eliminación de archivos sin referencias, consulte Mantenimiento de buckets de tablas de Amazon S3.

  • La eliminación de archivos sin referencias elimina los archivos de datos y metadatos a los que ya no hacen referencia los metadatos de Iceberg si la fecha de creación es anterior al periodo de retención.

Límites para el mantenimiento de tablas y buckets de tablas de S3

Operación de mantenimiento Propiedad ¿Configurable en el nivel de bucket de tablas? ¿Configurable en el nivel de tabla? Valor predeterminado Valor mínimo
Compactación targetFileSizeMB No 512 MB 64 MB
Administración de instantáneas minimumSnapshots No 1 1
Administración de instantáneas maximumSnapshotAge No 120 horas 1 hora
Eliminación de archivos sin referencias unreferencedDays No 3 días 1 día
Eliminación de archivos sin referencias nonCurrentDays No 10 días 1 día
nota

Tablas de S3 aplica el tamaño de grupo de filas predeterminado de parquet de 128 MB.