

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Configuración de AWS DataSync transferencias con un clúster HDFS
<a name="create-hdfs-location"></a>

Con él AWS DataSync, puede transferir datos entre el clúster del sistema de archivos distribuido de Hadoop (HDFS) y uno de los siguientes servicios de AWS almacenamiento mediante tareas en modo básico:
+ [Amazon S3](create-s3-location.md)
+ [Amazon EFS](create-efs-location.md)
+ [Servidor FSx de archivos Amazon para Windows](create-fsx-location.md)
+ [Amazon FSx para Lustre](create-lustre-location.md)
+ [Amazon FSx para OpenZFS](create-openzfs-location.md)
+ [Amazon FSx para NetApp ONTAP](create-ontap-location.md)

Para configurar este tipo de transferencia, cree una [ubicación](how-datasync-transfer-works.md#sync-locations) de transferencia para su clúster de HDFS. Puede usar esta ubicación como origen o destino de la transferencia.

## Proporcionar DataSync acceso a los clústeres de HDFS
<a name="accessing-hdfs"></a>

Para conectarse al clúster de HDFS, DataSync utiliza un [agente de modo básico que se implementa lo](deploy-agents.md) más cerca posible del clúster de HDFS. El DataSync agente actúa como un cliente HDFS y se comunica con el clúster NameNodes y dentro de él DataNodes .

Al iniciar una tarea de transferencia, DataSync consulta las ubicaciones NameNode de los archivos y carpetas del clúster. Si configura la ubicación de HDFS como ubicación de origen, DataSync lee los datos de archivos y carpetas del clúster y copia esos datos DataNodes en el destino. Si configura la ubicación de HDFS como ubicación de destino, DataSync graba los archivos y carpetas del origen DataNodes en el clúster.

### Autenticación
<a name="accessing-hdfs-authentication"></a>

Al conectarse a un clúster HDFS, DataSync admite la autenticación simple o la autenticación Kerberos. Para usar una autenticación simple, proporcione el nombre de usuario de un usuario con derechos de lectura y escritura en el clúster de HDFS. Para usar la autenticación Kerberos, proporcione un archivo de configuración de Kerberos, un archivo de tabla de claves de Kerberos (keytab) y un nombre de entidad principal de Kerberos. Las credenciales de la entidad principal de Kerberos deben estar en el archivo keytab proporcionado.

### Cifrado
<a name="accessing-hdfs-encryption"></a>

Cuando se utiliza la autenticación Kerberos, DataSync admite el cifrado de los datos a medida que se transmiten entre el DataSync agente y el clúster HDFS. Cifre sus datos mediante los ajustes de configuración de calidad de protección (QOP) del clúster de HDFS y especificando los ajustes de QOP al crear la ubicación de HDFS. La configuración de QOP incluye ajustes para la protección de la transferencia de datos y la protección de llamada a procedimiento remoto (RPC). 

**DataSync admite los siguientes tipos de cifrado Kerberos:**
+ `des-cbc-crc`
+ `des-cbc-md4`
+ `des-cbc-md5`
+ `des3-cbc-sha1`
+ `arcfour-hmac`
+ `arcfour-hmac-exp`
+ `aes128-cts-hmac-sha1-96`
+ `aes256-cts-hmac-sha1-96`
+ `aes128-cts-hmac-sha256-128`
+ `aes256-cts-hmac-sha384-192`
+ `camellia128-cts-cmac`
+ `camellia256-cts-cmac`

También se pueden configurar clústeres de HDFS para el cifrado en reposo mediante el cifrado de datos transparente (TDE). Cuando se utiliza una autenticación simple, DataSync lee y escribe en clústeres habilitados para TDE. Si va DataSync a copiar datos a un clúster compatible con TDE, primero configure las zonas de cifrado del clúster HDFS. DataSync no crea zonas de cifrado. 

## Características de HDFS no admitidas
<a name="hdfs-unsupported-features"></a>

Las siguientes capacidades de HDFS no son compatibles DataSync actualmente con:
+ Cifrado de datos transparente (TDE) cuando se utiliza la autenticación Kerberos
+ Configuración de varios NameNodes
+ Hadoop HDFS por HTTP (HttpFS)
+ Listas de control de acceso POSIX () ACLs
+ Atributos extendidos de HDFS (xattrs)
+ Clústeres HDFS que utilizan Apache HBase

## Creación de su ubicación de transferencia HDFS
<a name="create-hdfs-location-how-to"></a>

Puede utilizar su ubicación como origen o destino de la DataSync transferencia.

**Antes de empezar**: compruebe la conectividad de red entre el agente y el clúster de Hadoop de la siguiente manera:
+ Pruebe el acceso a los puertos TCP que figuran en [Requisitos de red para el almacenamiento local, autogestionado y otros tipos de almacenamiento en la nube](datasync-network.md#on-premises-network-requirements).
+ Pruebe el acceso entre su agente local y su clúster de Hadoop. Para obtener instrucciones, consulte [Verificación de la conexión de su agente con su sistema de lmacenamiento](test-agent-connections.md#self-managed-storage-connectivity).

### Uso de la DataSync consola
<a name="create-hdfs-location-how-to-console"></a>

1. Abra la AWS DataSync consola en [https://console.aws.amazon.com/datasync/](https://console.aws.amazon.com/datasync/).

1. En el panel de navegación situado a la izquierda, expanda **Transferencia de datos** y, a continuación, seleccione **Ubicaciones** y **Crear ubicación**.

1. En **Tipo de ubicación**, elija **sistema de archivos distribuido de Hadoop (HDFS)**.

   Puede configurar esta ubicación como origen o destino posteriormente. 

1. En **Agentes**, elija el agente que se pueda conectar con su clúster de HDFS.

   Puede elegir más de un agente. Para obtener más información, consulte [Uso de varios DataSync agentes](do-i-need-datasync-agent.md#multiple-agents).

1. Para **NameNode**, proporcione el nombre de dominio o la dirección IP del clúster HDFS principal NameNode.

1. En **Carpeta**, introduzca una carpeta del clúster HDFS que desee utilizar DataSync para la transferencia de datos.

   Si la ubicación de HDFS es una fuente, DataSync copia los archivos de esta carpeta en el destino. Si su ubicación es un destino, DataSync escribe los archivos en esta carpeta.

1. Para establecer el **Tamaño del bloque** o el **Factor de replicación**, seleccione **Ajustes adicionales**.

   El tamaño de bloque predeterminado es 128 MB. Los tamaños de los bloques que indique deben ser múltiplos de 512 bytes.

   El factor de replicación predeterminado es tres DataNodes cuando se transfiere al clúster HDFS. 

1. En la sección **Seguridad**, elija el **Tipo de autenticación** utilizado en el clúster de HDFS. 
   + **Simple**: para el **usuario**, especifique el nombre de usuario con los siguientes permisos en el clúster de HDFS (según su caso de uso):
     + Si planea usar esta ubicación como ubicación de origen, especifique un usuario que solo tenga permisos de lectura.
     + Si planea usar esta ubicación como ubicación de destino, especifique un usuario que solo tenga permisos de escritura.

     Opcionalmente, especifique el URI de Key Management Server (KMS) del clúster de HDFS. 
   + **Kerberos**: especifique la **entidad principal** de Kerberos con acceso al clúster de HDFS. A continuación, proporcione el **KeyTabarchivo** que contiene el principal Kerberos proporcionado. A continuación, proporcione el **archivo de configuración de Kerberos**. Por último, especifique el tipo de protección de cifrado en tránsito en las listas desplegables de **Protección RPC** y **Protección de transferencia de datos**.

1. (Opcional) Seleccione **Añadir etiqueta** para etiquetar su ubicación de HDFS.

   Las *etiquetas* son pares de clave-valor que le ayudan a administrar, filtrar y buscar sus recursos de DataSync. Le recomendamos crear al menos una etiqueta de nombre para su ubicación. 

1. Seleccione **Crear ubicación**.

### Usando el AWS CLI
<a name="create-location-hdfs-cli"></a>

1. Copie el siguiente comando `create-location-hdfs`.

   ```
   aws datasync create-location-hdfs --name-nodes [{"Hostname":"host1", "Port": 8020}] \
       --authentication-type "SIMPLE|KERBEROS" \
       --agent-arns [arn:aws:datasync:us-east-1:123456789012:agent/agent-01234567890example] \
       --subdirectory "/path/to/my/data"
   ```

1. Para el `--name-nodes` parámetro, especifique el nombre de host o la dirección IP del clúster HDFS principal NameNode y el puerto TCP en el que NameNode se escucha.

1. Para el parámetro `--authentication-type`, especifique el tipo de autenticación que se utilizará para conectarse al clúster de Hadoop. Puede especificar `SIMPLE` o `KERBEROS`.

   Si utiliza la autenticación `SIMPLE`, utilice el parámetro `--simple-user` para especificar el nombre de usuario del usuario. Si utiliza la autenticación `KERBEROS`, utilice los parámetros `--kerberos-principal`, `--kerberos-keytab` y `--kerberos-krb5-conf`. Para obtener más información, consulte [create-location-hdfs](https://awscli.amazonaws.com/v2/documentation/api/latest/reference/datasync/create-location-hdfs.html).

1. Para el `--agent-arns` parámetro, especifique el ARN del DataSync agente que se puede conectar al clúster HDFS.

   Puede elegir más de un agente. Para obtener más información, consulte [Uso de varios DataSync agentes](do-i-need-datasync-agent.md#multiple-agents).

1. (Opcional) Para el `--subdirectory` parámetro, especifique una carpeta del clúster HDFS que desee utilizar DataSync para la transferencia de datos.

   Si la ubicación de HDFS es una fuente, DataSync copia los archivos de esta carpeta en el destino. Si su ubicación es un destino, DataSync escribe los archivos en esta carpeta.

1. Ejecute el comando `create-location-hdfs`.

   Si el comando se ejecuta correctamente, recibirá una respuesta que le mostrará el ARN de la ubicación que creó. Por ejemplo:

   ```
   {
       "arn:aws:datasync:us-east-1:123456789012:location/loc-01234567890example"
   }
   ```