Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Prácticas recomendadas
Recomendamos las siguientes prácticas para acceder a los datos archivados:
-
En el caso de los conjuntos de datos de archivo de gran tamaño, recomendamos crear tablas de AWS Glue sobre los datos para que puedan leerse mediante motores de consulta como Athena y Amazon Redshift. Athena y Amazon Redshift ofrecen un escalado horizontal del rendimiento de las consultas. También utilizan un modelo de pago por consulta, que resulta rentable en un escenario de consultas únicas. Además, Amazon Redshift incorpora motores de Advanced Query Accelerator (AQUA), que aceleran el rendimiento de lectura sin costo adicional.
-
Los datos archivados que se descargan con normalidad en Amazon S3 no deben almacenarse como un volcado de memoria. En su lugar, deben guardarse como una partición nueva. Una partición de fecha separará los datos en dimensiones de fecha (por ejemplo,
year=<value>/month=<value>/day=<value>). Esto es extremadamente beneficioso en dos situaciones:-
Si las tablas de AWS Glue las crean los rastreadores de AWS Glue, estas particiones actúan como pseudocolumnas. Esto mejora el rendimiento de lectura, ya que restringe los datos escaneados a las particiones de la consulta de rango.
-
Esto ayuda en una operación de restauración de S3 Glacier cuando se restaura solo un subconjunto del objeto como S3 Standard.
-
-
Los rastreadores de AWS Glue muestran un gran valor cuando los datos archivados que se guardan en Amazon S3 se dividen físicamente. Cada vez que los datos se descargan como una nueva partición con prefijo, el rastreador escanea solo la nueva partición y actualiza los metadatos de esa partición. Si el esquema de la tabla cambia, esos cambios se capturarán en los metadatos a nivel de partición.