Errores de la VPC durante las operaciones del clúster de Amazon EMR - Amazon EMR

Errores de la VPC durante las operaciones del clúster de Amazon EMR

Los siguientes errores son comunes a la configuración de VPC en Amazon EMR.

Configuración de subredes no válida

En la página Cluster Details (Detalles del clúster), en el campo Status (Estado), ve un error similar al siguiente:

The subnet configuration was invalid: Cannot find route to InternetGateway in main RouteTable rtb-id for vpc vpc-id.

Para solucionar este problema, debe crear una gateway de Internet y asociarla a la VPC. Para obtener más información, consulte Adding an internet gateway to your VPC (Cómo añadir una gateway de Internet a la VPC).

De forma alternativa, compruebe que ha configurado la VPC con las opciones Enable DNS resolution (Habilitar resolución de DNS) y Enable DNS hostname support (Habilitar el soporte de nombres de host DNS) habilitadas. Para obtener más información, consulte Utilización de DNS con su VPC.

Falta el conjunto de opciones de DHCP

Puede ver un error de paso en el registro del sistema (syslog) del clúster con un error similar al siguiente:

ERROR org.apache.hadoop.security.UserGroupInformation (main): PriviledgedActionException as:hadoop (auth:SIMPLE) cause:java.io.IOException: org.apache.hadoop.yarn.exceptions.ApplicationNotFoundException: Application with id 'application_id' doesn't exist in RM.

o

ERROR org.apache.hadoop.streaming.StreamJob (main): Error Launching job : org.apache.hadoop.yarn.exceptions.ApplicationNotFoundException: Application with id 'application_id' doesn't exist in RM.

Para solucionar este problema, debe configurar una VPC que incluya un conjunto de opciones de DHCP cuyos parámetros se hayan definido en los siguientes valores:

nota

Si utiliza la región AWS GovCloud (Oeste de EE. UU.), defina domain-name como us-gov-west-1.compute.internal en lugar del valor utilizado en el ejemplo siguiente.

  • domain-name = ec2.internal

    Use ec2.internal si su región es Este de EE. UU. (Norte de Virginia). Para las demás regiones, utilice nombre-región.compute.internal. Por ejemplo en us-west-2, utilice domain-name=us-west-2.compute.internal.

  • domain-name-servers = AmazonProvidedDNS

Para obtener más información, consulte Conjuntos de opciones de DHCP.

Errores de permisos

Un error en el registro stderr de un paso indica que un recurso de Amazon S3 no tiene los permisos adecuados. Se trata de un error 403 y su aspecto es:

Exception in thread "main" com.amazonaws.services.s3.model.AmazonS3Exception: Access Denied (Service: Amazon S3; Status Code: 403; Error Code: AccessDenied; Request ID: REQUEST_ID

Si ActionOnFailure está definido en TERMINATE_JOB_FLOW, esto daría lugar a que el clúster termine con el estado, SHUTDOWN_COMPLETED_WITH_ERRORS.

Algunas formas de solucionar este problema son:

  • Si está utilizando una política de bucket de Amazon S3 dentro de una VPC, asegúrese de proporcionar acceso a todos los buckets. Para ello, cree un punto de conexión de VPC y seleccione Permitir todo en la opción Política al crear el punto de conexión.

  • Asegúrese de que las políticas asociadas con recursos de S3 incluyan la VPC en la que lanzar el clúster.

  • Pruebe a ejecutar el siguiente comando desde el clúster para verificar que puede acceder al bucket

    hadoop fs -copyToLocal s3://path-to-bucket /tmp/
  • Puede obtener información más específica sobre la depuración definiendo el parámetro log4j.logger.org.apache.http.wire en DEBUG en el archivo /home/hadoop/conf/log4j.properties en el clúster. Puede comprobar el archivo de registro stderr después de intentar acceder al bucket desde el clúster. El archivo de registro proporcionará información más detallada:

    Access denied for getting the prefix for bucket - us-west-2.elasticmapreduce with path samples/wordcount/input/ 15/03/25 23:46:20 DEBUG http.wire: >> "GET /?prefix=samples%2Fwordcount%2Finput%2F&delimiter=%2F&max-keys=1 HTTP/1.1[\r][\n]" 15/03/25 23:46:20 DEBUG http.wire: >> "Host: us-west-2.elasticmapreduce.s3.amazonaws.com[\r][\n]"

Errores que dan lugar a START_FAILED

Antes de la AMI 3.7.0, para las VPC donde se especifica un nombre de host, Amazon EMR asigna los nombres de host internos de la subred a direcciones de dominio personalizadas del siguiente modo: ip-X.X.X.X.customdomain.com.tld. Por ejemplo, si el nombre de host fuera ip-10.0.0.10 y la VPC tuviera la opción de nombre de dominio definida en customdomain.com, el nombre de host resultante asignado por Amazon EMR sería ip-10.0.1.0.customdomain.com. Se añade una entrada en /etc/hosts para resolver el nombre de host a 10.0.0.10. Este comportamiento se cambia con la AMI 3.7.0 y ahora Amazon EMR respeta completamente la configuración de DHCP de la VPC. Anteriormente, los clientes también podrían utilizar una acción de arranque para especificar un mapeo de nombre de host.

Si desea conservar este comportamiento, debe proporcionar la DNS y reenviar la configuración de resolución que necesita para el dominio personalizado.

Clúster Terminated with errors y NameNode no se inicia

Al lanzar un clúster de EMR en una VPC que hace uso de un nombre de dominio de DNS personalizado, el clúster podría devolver el siguiente mensaje de error en la consola:

Terminated with errors On the master instance(instance-id), bootstrap action 1 returned a non-zero return code

El error se debe a que NameNode no se puede iniciar. Esto dará lugar al siguiente error en los registros de NameNode, cuyo URI de Amazon S3 tiene el formato: s3://amzn-s3-demo-bucket/logs/cluster-id/daemons/master instance-id/hadoop-hadoop-namenode-master node hostname.log.gz:

2015-07-23 20:17:06,266 WARN org.apache.hadoop.hdfs.server.namenode.FSNamesystem (main): Encountered exception loading fsimage java.io.IOException: NameNode is not formatted. at org.apache.hadoop.hdfs.server.namenode.FSImage.recoverTransitionRead(FSImage.java:212) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFSImage(FSNamesystem.java:1020) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFromDisk(FSNamesystem.java:739) at org.apache.hadoop.hdfs.server.namenode.NameNode.loadNamesystem(NameNode.java:537) at org.apache.hadoop.hdfs.server.namenode.NameNode.initialize(NameNode.java:596) at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:765) at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:749) at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1441) at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1507)

Esto es debido a un posible problema en una instancia de EC2 que puede tener varios conjuntos de nombres de dominio completos al lanzar clústeres de EMR en una VPC, que hace uso de un servidor de DNS proporcionado por AWS y un servidor de DNS proporcionado por el usuario personalizado. Si el servidor de DNS proporcionado por el usuario no ofrece ningún registro de puntero (PTR) para ningún registro A utilizado para designar nodos en un clúster de EMR, los clústeres devolverán un error al iniciarse cuando se configuran de esta manera. La solución consiste en añadir un registro PTR por cada registro A que se crea cuando se lanza una instancia de EC2 en cualquiera de las subredes de la VPC.