Aceleración de la migración con particionamiento de datos - AWS DataSync

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Aceleración de la migración con particionamiento de datos

En migraciones de gran escala, se recomienda particionar el conjunto de datos en varias tareas de DataSync. El particionamiento de los datos de origen en varias tareas (y, posiblemente, agentes) permite paralelizar las transferencias y reducir el plazo de la migración.

El particionamiento también ayuda a mantenerse dentro de las cuotas de DataSync y simplifica la supervisión y la depuración de las tareas.

El siguiente diagrama muestra cómo se pueden utilizar varias tareas y agentes de DataSync para transferir datos desde la misma ubicación de almacenamiento de origen. En este escenario, cada tarea se centra en una carpeta específica en la ubicación de origen. Para obtener más información y ejemplos sobre estos enfoques, consulte Cómo acelerar las transferencias de datos con arquitecturas de escalado horizontal de AWS DataSync.

Un diagrama que muestra un enfoque con DataSync para particionar los datos de origen con el fin de acelerar una migración a gran escala.

Particionamiento del conjunto de datos por carpeta o prefijo

Al crear la ubicación de origen de DataSync, puede especificar una carpeta, un directorio o un prefijo desde el que DataSync leerá los datos. Por ejemplo, si se migra un recurso compartido de archivos con directorios de nivel superior, puede crear varias ubicaciones que especifiquen rutas de directorio diferentes. A continuación, puede usar estas ubicaciones para ejecutar varias tareas de DataSync durante la migración.

Particionamiento del conjunto de datos mediante filtros

Puede aplicar filtros para incluir o excluir datos de la ubicación de origen en una transferencia. En el contexto de una migración a gran escala, los filtros pueden ayudar a delimitar las tareas a partes específicas del conjunto de datos.

Por ejemplo, si se migran datos de archivo organizados por año, puede crear un filtro de inclusión que coincida con un año específico o con varios años. También puede modificar el filtro cada vez que se ejecute la tarea para que coincida con un año diferente.

Particionamiento del conjunto de datos mediante manifiestos

Un manifiesto es una lista de archivos u objetos que desea que DataSync transfiera. Con un manifiesto, DataSync no necesita leer todo el contenido de una ubicación de origen para determinar qué datos transferir.

Puede crear manifiestos a partir de inventarios del almacenamiento de origen o mediante enfoques basados en eventos (por ejemplo, consulte Implementación de AWS DataSync con cientos de millones de objetos). También puede usar un manifiesto diferente cada vez que inicie una tarea, lo que permite transferir distintos conjuntos de datos con la misma tarea.