Errores de la VPC durante las operaciones del clúster de Amazon EMR
Los siguientes errores son comunes a la configuración de VPC en Amazon EMR.
Temas
Configuración de subredes no válida
En la página Cluster Details (Detalles del clúster), en el campo Status (Estado), ve un error similar al siguiente:
The subnet configuration was invalid: Cannot find route to InternetGateway in main RouteTable rtb-id for vpc vpc-id.
Para solucionar este problema, debe crear una gateway de Internet y asociarla a la VPC. Para obtener más información, consulte Adding an internet gateway to your VPC (Cómo añadir una gateway de Internet a la VPC).
De forma alternativa, compruebe que ha configurado la VPC con las opciones Enable DNS resolution (Habilitar resolución de DNS) y Enable DNS hostname support (Habilitar el soporte de nombres de host DNS) habilitadas. Para obtener más información, consulte Utilización de DNS con su VPC.
Falta el conjunto de opciones de DHCP
Puede ver un error de paso en el registro del sistema (syslog) del clúster con un error similar al siguiente:
ERROR org.apache.hadoop.security.UserGroupInformation (main): PriviledgedActionException as:hadoop (auth:SIMPLE) cause:java.io.IOException: org.apache.hadoop.yarn.exceptions.ApplicationNotFoundException: Application with id 'application_id' doesn't exist in RM.
o
ERROR org.apache.hadoop.streaming.StreamJob (main): Error Launching job : org.apache.hadoop.yarn.exceptions.ApplicationNotFoundException: Application with id 'application_id' doesn't exist in RM.
Para solucionar este problema, debe configurar una VPC que incluya un conjunto de opciones de DHCP cuyos parámetros se hayan definido en los siguientes valores:
nota
Si utiliza la región AWS GovCloud (Oeste de EE. UU.), defina domain-name como us-gov-west-1.compute.internal en lugar del valor utilizado en el ejemplo siguiente.
-
domain-name =
ec2.internalUse
ec2.internalsi su región es Este de EE. UU. (Norte de Virginia). Para las demás regiones, utilicenombre-región.compute.internal. Por ejemplo en us-west-2, utilice domain-name=us-west-2.compute.internal. -
domain-name-servers =
AmazonProvidedDNS
Para obtener más información, consulte Conjuntos de opciones de DHCP.
Errores de permisos
Un error en el registro stderr de un paso indica que un recurso de Amazon S3 no tiene los permisos adecuados. Se trata de un error 403 y su aspecto es:
Exception in thread "main" com.amazonaws.services.s3.model.AmazonS3Exception: Access Denied (Service: Amazon S3; Status Code: 403; Error Code: AccessDenied; Request ID:REQUEST_ID
Si ActionOnFailure está definido en TERMINATE_JOB_FLOW, esto daría lugar a que el clúster termine con el estado, SHUTDOWN_COMPLETED_WITH_ERRORS.
Algunas formas de solucionar este problema son:
-
Si está utilizando una política de bucket de Amazon S3 dentro de una VPC, asegúrese de proporcionar acceso a todos los buckets. Para ello, cree un punto de conexión de VPC y seleccione Permitir todo en la opción Política al crear el punto de conexión.
-
Asegúrese de que las políticas asociadas con recursos de S3 incluyan la VPC en la que lanzar el clúster.
-
Pruebe a ejecutar el siguiente comando desde el clúster para verificar que puede acceder al bucket
hadoop fs -copyToLocal s3://path-to-bucket/tmp/ -
Puede obtener información más específica sobre la depuración definiendo el parámetro
log4j.logger.org.apache.http.wireenDEBUGen el archivo/home/hadoop/conf/log4j.propertiesen el clúster. Puede comprobar el archivo de registrostderrdespués de intentar acceder al bucket desde el clúster. El archivo de registro proporcionará información más detallada:Access denied for getting the prefix for bucket - us-west-2.elasticmapreduce with path samples/wordcount/input/ 15/03/25 23:46:20 DEBUG http.wire: >> "GET /?prefix=samples%2Fwordcount%2Finput%2F&delimiter=%2F&max-keys=1 HTTP/1.1[\r][\n]" 15/03/25 23:46:20 DEBUG http.wire: >> "Host: us-west-2.elasticmapreduce.s3.amazonaws.com[\r][\n]"
Errores que dan lugar a START_FAILED
Antes de la AMI 3.7.0, para las VPC donde se especifica un nombre de host, Amazon EMR asigna los nombres de host internos de la subred a direcciones de dominio personalizadas del siguiente modo: ip-. Por ejemplo, si el nombre de host fuera X.X.X.X.customdomain.com.tldip-10.0.0.10 y la VPC tuviera la opción de nombre de dominio definida en customdomain.com, el nombre de host resultante asignado por Amazon EMR sería ip-10.0.1.0.customdomain.com. Se añade una entrada en /etc/hosts para resolver el nombre de host a 10.0.0.10. Este comportamiento se cambia con la AMI 3.7.0 y ahora Amazon EMR respeta completamente la configuración de DHCP de la VPC. Anteriormente, los clientes también podrían utilizar una acción de arranque para especificar un mapeo de nombre de host.
Si desea conservar este comportamiento, debe proporcionar la DNS y reenviar la configuración de resolución que necesita para el dominio personalizado.
Clúster Terminated with
errors y NameNode no se inicia
Al lanzar un clúster de EMR en una VPC que hace uso de un nombre de dominio de DNS personalizado, el clúster podría devolver el siguiente mensaje de error en la consola:
Terminated with errors On the master instance(instance-id), bootstrap action 1 returned a non-zero return code
El error se debe a que NameNode no se puede iniciar. Esto dará lugar al siguiente error en los registros de NameNode, cuyo URI de Amazon S3 tiene el formato: s3://:amzn-s3-demo-bucket/logs/cluster-id/daemons/master instance-id/hadoop-hadoop-namenode-master node hostname.log.gz
2015-07-23 20:17:06,266 WARN org.apache.hadoop.hdfs.server.namenode.FSNamesystem (main): Encountered exception loading fsimage java.io.IOException: NameNode is not formatted. at org.apache.hadoop.hdfs.server.namenode.FSImage.recoverTransitionRead(FSImage.java:212) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFSImage(FSNamesystem.java:1020) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFromDisk(FSNamesystem.java:739) at org.apache.hadoop.hdfs.server.namenode.NameNode.loadNamesystem(NameNode.java:537) at org.apache.hadoop.hdfs.server.namenode.NameNode.initialize(NameNode.java:596) at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:765) at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:749) at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1441) at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1507)
Esto es debido a un posible problema en una instancia de EC2 que puede tener varios conjuntos de nombres de dominio completos al lanzar clústeres de EMR en una VPC, que hace uso de un servidor de DNS proporcionado por AWS y un servidor de DNS proporcionado por el usuario personalizado. Si el servidor de DNS proporcionado por el usuario no ofrece ningún registro de puntero (PTR) para ningún registro A utilizado para designar nodos en un clúster de EMR, los clústeres devolverán un error al iniciarse cuando se configuran de esta manera. La solución consiste en añadir un registro PTR por cada registro A que se crea cuando se lanza una instancia de EC2 en cualquiera de las subredes de la VPC.