Paso 4: compruebe el estado de la instancia y el clúster de Amazon EMR
Un clúster de Amazon EMR se compone de nodos que se ejecutan en instancias de Amazon EC2. Si dichas instancias se ven limitadas por los recursos (como, por ejemplo, quedarse sin CPU o memoria), tienen problemas de conectividad de red o se terminan, la velocidad de procesamiento del clúster se resiente.
Existen hasta tres tipos de nodos en un clúster:
-
nodo maestro: administra el clúster. Si experimenta problemas de rendimiento, se ve afectado todo el clúster.
-
nodos principales: procesan tareas de map-reduce y mantienen Hadoop Distributed FileSystem (HDFS). Si uno de estos nodos experimenta un problema de rendimiento, puede ralentizar las operaciones de HDFS, así como el procesamiento de MapReduce. Puede añadir más nodos secundarios a un clúster para mejorar el rendimiento, pero no puede eliminar nodos secundarios. Para obtener más información, consulte Cambio manual del tamaño de un clúster de Amazon EMR en ejecución.
-
nodos de tareas: procesan tareas map-reduce. Se trata exclusivamente de recursos informáticos y no almacenan datos. Puede añadir nodos de tareas a un clúster para acelerar el rendimiento o eliminar los nodos de tareas que no sean necesarios. Para obtener más información, consulte Cambio manual del tamaño de un clúster de Amazon EMR en ejecución.
Al examinar el estado de un clúster, debe examinar tanto el rendimiento global del clúster, así como el rendimiento de instancias concretas. Existen varias herramientas que puede utilizar:
Comprobar el estado del clúster con CloudWatch
Cada clúster de Amazon EMR notifica las métricas a CloudWatch. Estas métricas proporcionan información sobre el rendimiento de resumen acerca del clúster, como la carga total, utilización de HDFS, ejecución de tareas, tareas restante, bloques corruptos, etc. Al consultar las métricas de CloudWatch, obtiene el panorama general de lo que ocurre en el clúster y puede obtener información sobre los motivos por los que se ralentiza su procesamiento. Además de utilizar CloudWatch para analizar un problema de rendimiento existente, puede definir alarmas que hagan que CloudWatch avise en caso de que se produzca un problema de rendimiento. Para obtener más información, consulte Monitorización de métricas de Amazon EMR con CloudWatch.
Comprobar el estado del trabajo y de HDFS
Utilice la pestaña Interfaces de usuario de aplicaciones de la página de detalles del clúster para ver los detalles de las aplicaciones de YARN. Para determinadas aplicaciones, puede consultar información adicional y tener acceso a los logs directamente. Esto resulta especialmente útil para las aplicaciones Spark. Para obtener más información, consulte Visualización del historial de aplicaciones de Amazon EMR.
Hadoop proporciona una serie de interfaces web que puede utilizar para ver información. Para obtener más información sobre cómo acceder a estas interfaces web, consulte Ver las interfaces web alojadas en clústeres de Amazon EMR.
-
JobTracker: proporciona información sobre el progreso del trabajo que procesa el clúster. Puede utilizar esta interfaz para identificar si se ha bloqueado un trabajo.
-
NameNode de HDFS: proporciona información sobre el porcentaje de uso de HDFS y el espacio disponible en cada nodo. Puede utilizar esta interfaz para identificar cuando HDFS se ve limitado por los recursos y requiere capacidad adicional.
-
TaskTracker: proporciona información sobre las tareas del trabajo que procesa el clúster. Puede utilizar esta interfaz para identificar cuando se ha bloqueado una tarea.
Comprobar el estado de la instancia con Amazon EC2
Otra forma de buscar información sobre el estado de las instancias en el clúster consiste en utilizar la consola de Amazon EC2. Dado que cada nodo del clúster se ejecuta en una instancia de EC2, puede utilizar las herramientas proporcionadas por Amazon EC2 para comprobar su estado. Para obtener más información, consulte Ver instancias del clúster en Amazon EC2.