Configurar las AWS DataSync transferencias con un clúster HDFS - AWS DataSync

Configurar las AWS DataSync transferencias con un clúster HDFS

Con élAWS DataSync, puede transferir datos entre su clúster de Hadoop Distributed File System (HDFS) y uno de los siguientes servicios de almacenamiento: AWS

Para configurar este tipo de transferencia, cree una ubicación de transferencia para su clúster de HDFS. Puede usar esta ubicación como origen o destino de la transferencia.

Proporcionar acceso a DataSync a los clústeres HDFS

Para conectarse al clúster de HDFS, DataSync utiliza un agente que se implementa lo más cerca posible del clúster de HDFS. El agente de DataSync actúa como un cliente de HDFS y se comunica con los NameNodes y DataNodes de su clúster.

Al iniciar una tarea de transferencia, DataSync consulta las ubicaciones de los archivos y carpetas del clúster en el NameNode. Si configura su ubicación HDFS como ubicación de origen, DataSync lee los datos de archivos y carpetas de los DataNodes del clúster y copia los datos en el destino. Si configura su ubicación de HDFS como ubicación de destino, DataSync escribe los archivos y carpetas del destino en los DataNodes del clúster.

Autenticación

Al conectarse a un clúster de HDFS, DataSync admite la autenticación simple o la autenticación Kerberos. Para usar una autenticación simple, proporcione el nombre de usuario de un usuario con derechos de lectura y escritura en el clúster de HDFS. Para usar la autenticación Kerberos, proporcione un archivo de configuración de Kerberos, un archivo de tabla de claves de Kerberos (keytab) y un nombre de entidad principal de Kerberos. Las credenciales de la entidad principal de Kerberos deben estar en el archivo keytab proporcionado.

Cifrado

Cuando se utiliza la autenticación Kerberos, DataSync admite el cifrado de los datos a medida que se transmiten entre el agente de DataSync y el clúster de HDFS. Cifre sus datos mediante los ajustes de configuración de calidad de protección (QOP) del clúster de HDFS y especificando los ajustes de QOP al crear la ubicación de HDFS. La configuración de QOP incluye ajustes para la protección de la transferencia de datos y la protección de llamada a procedimiento remoto (RPC).

DataSync admite los siguientes tipos de cifrado Kerberos:
  • des-cbc-crc

  • des-cbc-md4

  • des-cbc-md5

  • des3-cbc-sha1

  • arcfour-hmac

  • arcfour-hmac-exp

  • aes128-cts-hmac-sha1-96

  • aes256-cts-hmac-sha1-96

  • aes128-cts-hmac-sha256-128

  • aes256-cts-hmac-sha384-192

  • camellia128-cts-cmac

  • camellia256-cts-cmac

También se pueden configurar clústeres de HDFS para el cifrado en reposo mediante el cifrado de datos transparente (TDE). Cuando se utiliza una autenticación simple, DataSync lee y escribe en clústeres habilitados para TDE. Si utiliza DataSync para copiar datos a un clúster compatible con TDE, primero configure las zonas de cifrado en el clúster de HDFS. DataSync no crea zonas de cifrado.

Características de HDFS no admitidas

DataSync no admite actualmente las siguientes capacidades de HDFS:

  • Cifrado de datos transparente (TDE) cuando se utiliza la autenticación Kerberos

  • Configuración de varios NameNodes

  • Hadoop HDFS por HTTP (HttpFS)

  • Listas de control de acceso POSIX (ACL)

  • Atributos extendidos de HDFS (xattrs)

  • Clústeres HDFS que utilizan Apache HBase

Creación de su ubicación de transferencia HDFS

Puede usar esta ubicación como origen o destino de la transferencia de DataSync.

Antes de empezar: compruebe la conectividad de red entre el agente y el clúster de Hadoop de la siguiente manera:

  1. Abra la consola de AWS DataSync en https://console.aws.amazon.com/datasync/.

  2. En el panel de navegación situado a la izquierda, expanda Transferencia de datos y, a continuación, seleccione Ubicaciones y Crear ubicación.

  3. En Tipo de ubicación, elija sistema de archivos distribuido de Hadoop (HDFS).

    Puede configurar esta ubicación como origen o destino posteriormente.

  4. En Agentes, elija el agente que se pueda conectar con su clúster de HDFS.

    Puede elegir más de un agente. Para obtener más información, consulte Uso de múltiples agentes de DataSync.

  5. En NameNode, proporcione el nombre de dominio o la dirección IP del NameNode principal del clúster de HDFS.

  6. En Carpeta, introduzca una carpeta en el clúster de HDFS que quiere que DataSync utilice para la transferencia de datos.

    Si la ubicación de HDFS es una fuente, DataSync copia los archivos de esta carpeta en el destino. Si su ubicación es un destino, DataSync escribe los archivos en esta carpeta.

  7. Para establecer el Tamaño del bloque o el Factor de replicación, seleccione Ajustes adicionales.

    El tamaño de bloque predeterminado es 128 MB. Los tamaños de los bloques que indique deben ser múltiplos de 512 bytes.

    El factor de replicación predeterminado es de tres DataNodes cuando se transfieren datos al clúster de HDFS.

  8. En la sección Seguridad, elija el Tipo de autenticación utilizado en el clúster de HDFS.

    • Simple: para el usuario, especifique el nombre de usuario con los siguientes permisos en el clúster de HDFS (según su caso de uso):

      • Si planea usar esta ubicación como ubicación de origen, especifique un usuario que solo tenga permisos de lectura.

      • Si planea usar esta ubicación como ubicación de destino, especifique un usuario que solo tenga permisos de escritura.

      Opcionalmente, especifique el URI de Key Management Server (KMS) del clúster de HDFS.

    • Kerberos: especifique la entidad principal de Kerberos con acceso al clúster de HDFS. A continuación, proporcione el archivo KeyTab que contiene la entidad principal de Kerberos proporcionada. A continuación, proporcione el archivo de configuración de Kerberos. Por último, especifique el tipo de protección de cifrado en tránsito en las listas desplegables de Protección RPC y Protección de transferencia de datos.

  9. (Opcional) Seleccione Añadir etiqueta para etiquetar su ubicación de HDFS.

    Las etiquetas son pares de clave-valor que le ayudan a administrar, filtrar y buscar sus recursos de DataSync. Le recomendamos crear al menos una etiqueta de nombre para su ubicación.

  10. Seleccione Crear ubicación.

  1. Copie el siguiente comando create-location-hdfs.

    aws datasync create-location-hdfs --name-nodes [{"Hostname":"host1", "Port": 8020}] \ --authentication-type "SIMPLE|KERBEROS" \ --agent-arns [arn:aws:datasync:us-east-1:123456789012:agent/agent-01234567890example] \ --subdirectory "/path/to/my/data"
  2. Para el parámetro --name-nodes, especifique el nombre de host o la dirección IP del NameNode su clúster HDFS y el puerto TCP en el que escucha el NameNode.

  3. Para el parámetro --authentication-type, especifique el tipo de autenticación que se utilizará para conectarse al clúster de Hadoop. Puede especificar SIMPLE o KERBEROS.

    Si utiliza la autenticación SIMPLE, utilice el parámetro --simple-user para especificar el nombre de usuario del usuario. Si utiliza la autenticación KERBEROS, utilice los parámetros --kerberos-principal, --kerberos-keytab y --kerberos-krb5-conf. Para obtener más información, consulte create-location-hdfs.

  4. En el parámetro --agent-arns, especifique el ARN del agente de DataSync que se puede conectar al clúster de HDFS.

    Puede elegir más de un agente. Para obtener más información, consulte Uso de múltiples agentes de DataSync.

  5. (Opcional) Para el parámetro --subdirectory, especifique una carpeta en el clúster HDFS que desee que DataSync utilice para la transferencia de datos.

    Si la ubicación de HDFS es una fuente, DataSync copia los archivos de esta carpeta en el destino. Si su ubicación es un destino, DataSync escribe los archivos en esta carpeta.

  6. Ejecute el comando create-location-hdfs.

    Si el comando se ejecuta correctamente, recibirá una respuesta que le mostrará el ARN de la ubicación que creó. Por ejemplo:

    { "arn:aws:datasync:us-east-1:123456789012:location/loc-01234567890example" }