Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Prácticas recomendadas
Le sugerimos seguir las prácticas recomendadas técnicas y de almacenamiento. Estas prácticas recomendadas pueden ayudarlo a aprovechar al máximo su arquitectura centrada en los datos.
Prácticas recomendadas de almacenamiento para macrodatos
En la tabla siguiente se describe una práctica recomendada común para almacenar archivos para una carga de procesamiento de macrodatos en Amazon S3. La última columna es un ejemplo de una política de ciclo de vida que puede establecer. Si Amazon S3 Intelligent-Tiering
Nombre de la capa de datos |
Descripción |
Ejemplo de política de ciclo de vida |
Raw |
Contiene datos sin formato y sin procesar Nota: En el caso de una fuente de datos externa, la capa de datos sin procesar suele ser una copia individual de los datos, pero AWS los datos se pueden dividir mediante claves en función de la fecha Región de AWS o del proceso de ingesta. |
Pasado un año, mueva los archivos a la clase de almacenamiento S3 Standard-IA Tras dos años en S3 Standard-IA, archive los archivos en Amazon Simple Storage Service Glacier (Amazon S3 Glacier). Amazon Glacier (servicio original independiente basado en almacenes) ya no aceptará nuevos clientes a partir del 15 de diciembre de 2025, sin que ello afecte a los clientes actuales. Amazon Glacier es un servicio independiente propio APIs que almacena datos en almacenes y es distinto de las clases de almacenamiento Amazon S3 y Amazon S3 Glacier. Sus datos actuales permanecerán seguros y accesibles en Amazon Glacier de forma indefinida. No hay que hacer migraciones. Para un almacenamiento de archivos a largo plazo y de bajo costo, AWS recomienda las clases de almacenamiento Amazon S3 Glacier |
Etapa |
Contiene datos procesados de manera intermedia que están optimizados para el consumo Ejemplo: archivos sin formato o transformaciones de datos convertidos de CSV a Apache Parquet |
Puede eliminar los datos después de un periodo definido o según los requisitos de su organización. Puede eliminar algunos derivados de datos (por ejemplo, una transformación de Apache Avro de un formato JSON original) del lago de datos después de un periodo de tiempo más corto (por ejemplo, después de 90 días). |
Análisis |
Contiene los datos agregados para los casos de uso específicos en un formato listo para el consumo Ejemplo: Apache Parquet |
Puede trasladar los datos a S3 Standard-IA y, a continuación, eliminarlos tras un periodo definido o según los requisitos de su organización. |
En el diagrama siguiente se muestra un ejemplo de una estrategia de partición (correspondiente a una carpeta o prefijo de S3) que puede utilizar en todas las capas de datos. Le recomendamos elegir una estrategia de particionamiento según cómo se usen sus datos en sentido descendente. Por ejemplo, si los informes se generan según los datos (donde las consultas más comunes del informe filtran los resultados según la región y las fechas), asegúrese de incluir las regiones y las fechas como particiones para mejorar el rendimiento y el tiempo de ejecución de las consultas.
Prácticas recomendadas técnicas
Las mejores prácticas técnicas dependen de las tecnologías específicas Servicios de AWS y de procesamiento que utilice para diseñar su arquitectura centrada en los datos. Sin embargo, le recomendamos que tenga en cuenta las prácticas recomendadas siguientes. Estas prácticas recomendadas se aplican a los casos de uso típicos del procesamiento de datos.
Área |
Práctica recomendada |
SQL |
Reduzca la cantidad de datos que se deben consultar al proyectar los atributos en los datos. En lugar de analizar toda la tabla, puede utilizar la proyección de datos para escanear y devolver solo determinadas columnas obligatorias de la tabla. Si es posible, evite las uniones grandes, ya que las uniones entre varias tablas pueden afectar en gran medida al rendimiento debido a que requieren muchos recursos. |
Apache Spark |
Optimice las aplicaciones de Spark Optimice la gestión de la memoria |
Diseño de base de datos |
Siga las prácticas recomendadas de arquitectura para bases de datos |
Poda de datos |
Utilice la eliminación de particiones del lado del servidor con |
Escalado |
Comprenda e implemente el escalado horizontal |