Prácticas recomendadas

Recomendamos las siguientes prácticas para acceder a los datos archivados:

En el caso de los conjuntos de datos de archivo de gran tamaño, recomendamos crear tablas de AWS Glue sobre los datos para que puedan leerse mediante motores de consulta como Athena y Amazon Redshift. Athena y Amazon Redshift ofrecen un escalado horizontal del rendimiento de las consultas. También utilizan un pay-per-query modelo, que es rentable en un escenario de consulta única. Además, Amazon Redshift incorpora motores de Advanced Query Accelerator (AQUA), que aceleran el rendimiento de lectura sin costo adicional.
Los datos archivados que se descargan con normalidad en Amazon S3 no deben almacenarse como un volcado de memoria. En su lugar, deben guardarse como una partición nueva. Una partición de fecha separará los datos en dimensiones de fecha (por ejemplo, year=<value>/month=<value>/day=<value>). Esto es extremadamente beneficioso en dos situaciones:
- Si las tablas de AWS Glue las crean los rastreadores de AWS Glue, estas particiones actúan como pseudocolumnas. Esto mejora el rendimiento de lectura, ya que restringe los datos escaneados a las particiones de la consulta de rango.
- Esto ayuda en una operación de restauración de S3 Glacier cuando se restaura solo un subconjunto del objeto como S3 Standard.
Los rastreadores de AWS Glue muestran un gran valor cuando los datos archivados que se guardan en Amazon S3 se dividen físicamente. Cada vez que los datos se descargan como una nueva partición con prefijo, el rastreador escanea solo la nueva partición y actualiza los metadatos de esa partición. Si el esquema de la tabla cambia, esos cambios se capturarán en los metadatos a nivel de partición.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Clases de almacenamiento de S3 Glacier

Eliminación