Prácticas recomendadas

Le sugerimos seguir las prácticas recomendadas técnicas y de almacenamiento. Estas prácticas recomendadas pueden ayudarlo a aprovechar al máximo su arquitectura centrada en los datos.

Prácticas recomendadas de almacenamiento para macrodatos

En la tabla siguiente se describe una práctica recomendada común para almacenar archivos para una carga de procesamiento de macrodatos en Amazon S3. La última columna es un ejemplo de una política de ciclo de vida que puede establecer. Si Amazon S3 Intelligent-Tiering está habilitado (lo que ofrece un ahorro automático en los costos de almacenamiento cuando los patrones de acceso a los datos cambian de manera automática), no tendrá que configurar la política de manera manual.

Nombre de la capa de datos	Descripción	Ejemplo de política de ciclo de vida
Raw	Contiene datos sin formato y sin procesar Nota: En el caso de una fuente de datos externa, la capa de datos sin procesar suele ser una copia individual de los datos, pero AWS los datos se pueden dividir mediante claves en función de la fecha Región de AWS o del proceso de ingesta.	Pasado un año, mueva los archivos a la clase de almacenamiento S3 Standard-IA Tras dos años en S3 Standard-IA, archive los archivos en Amazon Simple Storage Service Glacier (Amazon S3 Glacier). Amazon Glacier (servicio original independiente basado en almacenes) ya no aceptará nuevos clientes a partir del 15 de diciembre de 2025, sin que ello afecte a los clientes actuales. Amazon Glacier es un servicio independiente propio APIs que almacena datos en almacenes y es distinto de las clases de almacenamiento Amazon S3 y Amazon S3 Glacier. Sus datos actuales permanecerán seguros y accesibles en Amazon Glacier de forma indefinida. No hay que hacer migraciones. Para un almacenamiento de archivos a largo plazo y de bajo costo, AWS recomienda las clases de almacenamiento Amazon S3 Glacier, que ofrecen una experiencia de cliente superior con S3 basada en cubos APIs, Región de AWS disponibilidad total, costos más bajos e AWS integración de servicios. Si desea mejorar las capacidades, considere la posibilidad de migrar a las clases de almacenamiento de Amazon S3 Glacier utilizando nuestra Guía de AWS soluciones para transferir datos de los almacenes de Amazon S3 a las clases de almacenamiento de Amazon S3 Glacier.
Etapa	Contiene datos procesados de manera intermedia que están optimizados para el consumo Ejemplo: archivos sin formato o transformaciones de datos convertidos de CSV a Apache Parquet	Puede eliminar los datos después de un periodo definido o según los requisitos de su organización. Puede eliminar algunos derivados de datos (por ejemplo, una transformación de Apache Avro de un formato JSON original) del lago de datos después de un periodo de tiempo más corto (por ejemplo, después de 90 días).
Análisis	Contiene los datos agregados para los casos de uso específicos en un formato listo para el consumo Ejemplo: Apache Parquet	Puede trasladar los datos a S3 Standard-IA y, a continuación, eliminarlos tras un periodo definido o según los requisitos de su organización.

En el diagrama siguiente se muestra un ejemplo de una estrategia de partición (correspondiente a una carpeta o prefijo de S3) que puede utilizar en todas las capas de datos. Le recomendamos elegir una estrategia de particionamiento según cómo se usen sus datos en sentido descendente. Por ejemplo, si los informes se generan según los datos (donde las consultas más comunes del informe filtran los resultados según la región y las fechas), asegúrese de incluir las regiones y las fechas como particiones para mejorar el rendimiento y el tiempo de ejecución de las consultas.

Prácticas recomendadas técnicas

Las mejores prácticas técnicas dependen de las tecnologías específicas Servicios de AWS y de procesamiento que utilice para diseñar su arquitectura centrada en los datos. Sin embargo, le recomendamos que tenga en cuenta las prácticas recomendadas siguientes. Estas prácticas recomendadas se aplican a los casos de uso típicos del procesamiento de datos.

Área	Práctica recomendada
SQL	Reduzca la cantidad de datos que se deben consultar al proyectar los atributos en los datos. En lugar de analizar toda la tabla, puede utilizar la proyección de datos para escanear y devolver solo determinadas columnas obligatorias de la tabla. Si es posible, evite las uniones grandes, ya que las uniones entre varias tablas pueden afectar en gran medida al rendimiento debido a que requieren muchos recursos.
Apache Spark	Optimice las aplicaciones de Spark dividiendo la carga de trabajo en AWS Glue (blog sobre AWS macrodatos). Optimice la gestión de la memoria en AWS Glue (blog sobre AWS macrodatos).
Diseño de base de datos	Siga las prácticas recomendadas de arquitectura para bases de datos (AWS Architecture Center).
Poda de datos	Utilice la eliminación de particiones del lado del servidor con `catalogPartitionPredicate`.
Escalado	Comprenda e implemente el escalado horizontal.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Automatización y control de acceso

Preguntas frecuentes