Prácticas recomendadas - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Prácticas recomendadas

Le sugerimos seguir las prácticas recomendadas técnicas y de almacenamiento. Estas prácticas recomendadas pueden ayudarlo a aprovechar al máximo su arquitectura centrada en los datos.

Prácticas recomendadas de almacenamiento para macrodatos

En la tabla siguiente se describe una práctica recomendada común para almacenar archivos para una carga de procesamiento de macrodatos en Amazon S3. La última columna es un ejemplo de una política de ciclo de vida que puede establecer. Si Amazon S3 Intelligent-Tiering está habilitado (lo que ofrece un ahorro automático en los costos de almacenamiento cuando los patrones de acceso a los datos cambian de manera automática), no tendrá que configurar la política de manera manual.

Nombre de la capa de datos

Descripción

Ejemplo de política de ciclo de vida

Raw

Contiene datos sin formato y sin procesar

Nota: En el caso de una fuente de datos externa, la capa de datos sin procesar suele ser una copia individual de los datos, pero AWS los datos se pueden dividir mediante claves en función de la fecha Región de AWS o del proceso de ingesta.

Pasado un año, mueva los archivos a la clase de almacenamiento S3 Standard-IA Tras dos años en S3 Standard-IA, archive los archivos en Amazon Simple Storage Service Glacier (Amazon S3 Glacier).

Amazon Glacier (servicio original independiente basado en almacenes) ya no aceptará nuevos clientes a partir del 15 de diciembre de 2025, sin que ello afecte a los clientes actuales.

Amazon Glacier es un servicio independiente propio APIs que almacena datos en almacenes y es distinto de las clases de almacenamiento Amazon S3 y Amazon S3 Glacier. Sus datos actuales permanecerán seguros y accesibles en Amazon Glacier de forma indefinida. No hay que hacer migraciones. Para un almacenamiento de archivos a largo plazo y de bajo costo, AWS recomienda las clases de almacenamiento Amazon S3 Glacier, que ofrecen una experiencia de cliente superior con S3 basada en cubos APIs, Región de AWS disponibilidad total, costos más bajos e AWS integración de servicios. Si desea mejorar las capacidades, considere la posibilidad de migrar a las clases de almacenamiento de Amazon S3 Glacier utilizando nuestra Guía de AWS soluciones para transferir datos de los almacenes de Amazon S3 a las clases de almacenamiento de Amazon S3 Glacier.

Etapa

Contiene datos procesados de manera intermedia que están optimizados para el consumo

Ejemplo: archivos sin formato o transformaciones de datos convertidos de CSV a Apache Parquet

Puede eliminar los datos después de un periodo definido o según los requisitos de su organización.

Puede eliminar algunos derivados de datos (por ejemplo, una transformación de Apache Avro de un formato JSON original) del lago de datos después de un periodo de tiempo más corto (por ejemplo, después de 90 días).

Análisis

Contiene los datos agregados para los casos de uso específicos en un formato listo para el consumo

Ejemplo: Apache Parquet

Puede trasladar los datos a S3 Standard-IA y, a continuación, eliminarlos tras un periodo definido o según los requisitos de su organización.

En el diagrama siguiente se muestra un ejemplo de una estrategia de partición (correspondiente a una carpeta o prefijo de S3) que puede utilizar en todas las capas de datos. Le recomendamos elegir una estrategia de particionamiento según cómo se usen sus datos en sentido descendente. Por ejemplo, si los informes se generan según los datos (donde las consultas más comunes del informe filtran los resultados según la región y las fechas), asegúrese de incluir las regiones y las fechas como particiones para mejorar el rendimiento y el tiempo de ejecución de las consultas.

Diagrama de estrategia de partición

Prácticas recomendadas técnicas

Las mejores prácticas técnicas dependen de las tecnologías específicas Servicios de AWS y de procesamiento que utilice para diseñar su arquitectura centrada en los datos. Sin embargo, le recomendamos que tenga en cuenta las prácticas recomendadas siguientes. Estas prácticas recomendadas se aplican a los casos de uso típicos del procesamiento de datos.

Área

Práctica recomendada

SQL

Reduzca la cantidad de datos que se deben consultar al proyectar los atributos en los datos. En lugar de analizar toda la tabla, puede utilizar la proyección de datos para escanear y devolver solo determinadas columnas obligatorias de la tabla.

Si es posible, evite las uniones grandes, ya que las uniones entre varias tablas pueden afectar en gran medida al rendimiento debido a que requieren muchos recursos.

Apache Spark

Optimice las aplicaciones de Spark dividiendo la carga de trabajo en AWS Glue (blog sobre AWS macrodatos).

Optimice la gestión de la memoria en AWS Glue (blog sobre AWS macrodatos).

Diseño de base de datos

Siga las prácticas recomendadas de arquitectura para bases de datos (AWS Architecture Center).

Poda de datos

Utilice la eliminación de particiones del lado del servidor con catalogPartitionPredicate.

Escalado

Comprenda e implemente el escalado horizontal.