

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Supervisión AWS ParallelCluster y registros
<a name="monitoring-overview"></a>

La supervisión es una parte importante del mantenimiento de la confiabilidad, la disponibilidad y el rendimiento de AWS ParallelCluster AWS las demás soluciones. AWS proporciona las siguientes herramientas de monitoreo para observar AWS ParallelCluster, informar cuando algo anda mal y tomar medidas automáticas cuando sea apropiado:
+ *Amazon CloudWatch* monitorea tus AWS recursos y las aplicaciones en las que AWS ejecutas en tiempo real. Puede recopilar métricas y realizar un seguimiento de las métricas, crear paneles personalizados y definir alarmas que le advierten o que toman medidas cuando una métrica determinada alcanza el umbral que se especifique. Por ejemplo, puedes CloudWatch hacer un seguimiento del uso de la CPU u otras métricas de tus EC2 instancias de Amazon y lanzar automáticamente nuevas instancias cuando sea necesario. Para obtener más información, consulta la [Guía del CloudWatch usuario de Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/).
+ *Amazon CloudWatch Logs* le permite supervisar, almacenar y acceder a sus archivos de registro desde EC2 instancias de Amazon y otras fuentes. CloudTrail CloudWatch Los registros pueden monitorear la información de los archivos de registro y notificarle cuando se alcanzan ciertos umbrales. También se pueden archivar los datos del registro en un almacenamiento de larga duración. Para obtener más información, consulta la [Guía del usuario CloudWatch de Amazon Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/).
+ *AWS CloudTrail* captura las llamadas a la API y otros eventos relacionados que realiza la Cuenta de AWS o que se realizan en nombre de esta. Además, entrega los archivos de registro a un bucket de Amazon S3 especificado. También pueden identificar qué usuarios y cuentas llamaron a AWS, la dirección IP de origen de las llamadas y el momento en que estas se realizaron. Para obtener más información, consulte la [Guía del usuario de AWS CloudTrail](https://docs.aws.amazon.com/awscloudtrail/latest/userguide/).
+ *Amazon EventBridge* es un servicio de bus de eventos sin servidor que facilita la conexión de sus aplicaciones con datos de diversas fuentes. EventBridge ofrece un flujo de datos en tiempo real desde sus propias aplicaciones, aplicaciones Software-as-a-Service (SaaS) y AWS servicios, y dirige esos datos a destinos como Lambda. Esto le permite monitorear los eventos que ocurren en los servicios y crear arquitecturas basadas en eventos. Para obtener más información, consulta la [Guía del EventBridge usuario de Amazon](https://docs.aws.amazon.com/eventbridge/latest/userguide/).

**Topics**
+ [Integración con Amazon CloudWatch Logs](cloudwatch-logs-v3.md)
+ [CloudWatch Panel de control de Amazon](cloudwatch-dashboard-v3.md)
+ [CloudWatch Alarmas de Amazon para métricas de clústeres](cloudwatch-alarms-v3.md)
+ [AWS ParallelCluster rotación de registros configurada](log-rotation-v3.md)
+ [Registros de CLI de `pcluster`](troubleshooting-v3-pc-cli-logs.md)
+ [Registros de salida de la EC2 consola Amazon](console-logs-v3.md)
+ [Recupere los registros de tiempo de ejecución y AWS ParallelCluster de la PCUI](troubleshooting-v3-get-runtime-logs.md)
+ [Recuperación y conservación de registros](troubleshooting-v3-get-logs.md)

# Integración con Amazon CloudWatch Logs
<a name="cloudwatch-logs-v3"></a>

Para obtener más información sobre CloudWatch los registros, consulte la [Guía del usuario de Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/). Para configurar la integración de CloudWatch Logs, consulte la [`Monitoring`](Monitoring-v3.md)sección. Para obtener información sobre cómo añadir registros personalizados a la CloudWatch configuración mediante`append-config`, consulte [Archivos de configuración de varios CloudWatch agentes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Agent-common-scenarios.html#CloudWatch-Agent-multiple-config-files) en la *Guía del CloudWatch usuario de Amazon*.

## CloudWatch Registros de clústeres de Amazon Logs
<a name="cloudwatch-logs-clusters"></a>

Se crea un grupo de registros para cada clúster con un nombre, `/aws/parallelcluster/cluster-name-<timestamp>` (por ejemplo, `/aws/parallelcluster/testCluster-202202050215`). Cada registro (o conjunto de registros si la ruta contiene un `*`) de cada nodo tiene un flujo de registro denominado `{hostname}.{instance_id}.{logIdentifier}`. (Por ejemplo: `ip-172-31-10-46.i-02587cf29cc3048f3.nodewatcher`). El [CloudWatch agente](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) envía los datos CloudWatch de registro y se ejecuta como `root` en todas las instancias del clúster.

Cuando se crea el clúster, se crea un CloudWatch panel de Amazon. Este panel te permite revisar los registros almacenados en CloudWatch Logs. Para obtener más información, consulte [CloudWatch Panel de control de Amazon](cloudwatch-dashboard-v3.md).

Esta lista contiene la ruta *logIdentifier* y la ruta de los flujos de registros disponibles para las plataformas, los programadores y los nodos.


**Flujos de registro disponibles para plataformas, programadores y nodos**  

| Plataformas | Programadores | Nodos | Flujos de registro | 
| --- | --- | --- | --- | 
|  amazon redhat ubuntu  |  awsbatch Slurm  |  HeadNode  |  dcv-authenticator: `/var/log/parallelcluster/pcluster_dcv_authenticator.log` dcv-ext-authenticator: `/var/log/parallelcluster/pcluster_dcv_connect.log` dcv-agent: `/var/log/dcv/agent.*.log` dcv-xsession: `/var/log/dcv/dcv-xsession.*.log` dcv-server: `/var/log/dcv/server.log` dcv-session-launcher: `/var/log/dcv/sessionlauncher.log` Xdcv: `/var/log/dcv/Xdcv.*.log` cfn-init: `/var/log/cfn-init.log` chef-client: `/var/log/chef-client.log`  | 
|  amazon redhat ubuntu  |  awsbatch Slurm  |  ComputeFleet HeadNode  |  cloud-init: `/var/log/cloud-init.log` supervisord: `/var/log/supervisord.log`  | 
|  amazon redhat ubuntu  |  Slurm  |  ComputeFleet  |  cloud-init-output: `/var/log/cloud-init-output.log` computemgtd: `/var/log/parallelcluster/computemgtd` slurmd: `/var/log/slurmd.log` slurm\$1prolog\$1epilog: `/var/log/parallelcluster/slurm_prolog_epilog.log`  | 
|  amazon redhat ubuntu  |  Slurm  |  HeadNode  |  sssd: `/var/log/sssd/sssd.log` sssd\$1domain\$1default: `/var/log/sssd/sssd_default.log` pam\$1ssh\$1key\$1generator: `/var/log/parallelcluster/pam_ssh_key_generator.log` clusterstatusmgtd: `/var/log/parallelcluster/clusterstatusmgtd` clustermgtd: `/var/log/parallelcluster/clustermgtd` compute\$1console\$1output: `/var/log/parallelcluster/compute_console_output` slurm\$1resume: `/var/log/parallelcluster/slurm_resume.log` slurm\$1suspend: `/var/log/parallelcluster/slurm_suspend.log` slurmctld: `/var/log/slurmctld.log` slurm\$1fleet\$1status\$1manager: `/var/log/parallelcluster/slurm_fleet_status_manager.log`  | 
|  amazon redhat  |  awsbatch Slurm  |  ComputeFleet HeadNode  |  system-messages: `/var/log/messages`  | 
|  ubuntu  |  awsbatch Slurm  |  ComputeFleet HeadNode  |  syslog: `/var/log/syslog`  | 

Los trabajos de los clústeres que se utilizan AWS Batch almacenan la salida de los trabajos que alcanzaron un estado de `RUNNING``SUCCEEDED`, o `FAILED` en CloudWatch registros. El grupo de registros es `/aws/batch/job`, y el formato del nombre del flujo de registro es `jobDefinitionName/default/ecs_task_id`. De forma predeterminada, estos registros están configurados para no caducar, pero se puede modificar el periodo de retención. Para obtener más información, consulta [Cambiar la retención de datos de registro en CloudWatch los registros](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/SettingLogRetention.html) en la *Guía del usuario de Amazon CloudWatch Logs*.

## Amazon CloudWatch Logs crea registros de imágenes
<a name="cloudwatch-logs-build-images"></a>

Se crea un grupo de registros para cada imagen de compilación personalizada con un nombre, `/aws/imagebuilder/ParallelClusterImage-<image-id>`. Un flujo de registro único con el nombre *\$1pcluster-version\$1* /1 contiene el resultado del proceso de creación de la imagen.

Puede acceder a los registros mediante los comandos de imagen [`pcluster`](pcluster-v3.md). Para obtener más información, consulte [AWS ParallelCluster Personalización de AMI](custom-ami-v3.md).

# CloudWatch Panel de control de Amazon
<a name="cloudwatch-dashboard-v3"></a>

Cuando se crea un clúster, se crea un CloudWatch panel de Amazon. Esto facilita la supervisión de los nodos del clúster y la visualización de los registros almacenados en Amazon CloudWatch Logs. El nombre del panel es`ClusterName-Region`. *ClusterName*es el nombre de su clúster y *Region* es el lugar en Región de AWS el que se encuentra el clúster. Puede acceder al panel de control desde la consola o abriendo `https://console.aws.amazon.com/cloudwatch/home?region=Region#dashboards:name=ClusterName-Region`.

La siguiente imagen muestra un ejemplo de CloudWatch panel para un clúster.

 ![\[Dashboard graphs of the status of cluster resources.\]](http://docs.aws.amazon.com/es_es/parallelcluster/latest/ug/images/CW-dashboard.png) 

**Métricas de la instancia del nodo principal**

La primera sección del panel muestra gráficos de las EC2 métricas de Amazon del nodo principal.

Si su clúster tiene almacenamiento compartido, en la siguiente sección se muestran las métricas de almacenamiento compartido.

**Métricas del estado del clúster**

Si tu clúster usa Slurm para la programación, los gráficos de métricas de estado del clúster muestran los errores de los nodos de cómputo del clúster en tiempo real. Para obtener más información, consulte [Solución de problemas de estado del clúster](troubleshooting-v3-cluster-health-metrics.md). Las métricas de estado del clúster se añaden al panel de control a partir de la AWS ParallelCluster versión 3.6.0.

**Registros del nodo principal**

La sección final enumera los registros del nodo principal agrupados por registros, registros AWS ParallelCluster de Scheduler, registros de integración de Amazon DCV y registros del sistema.

Para obtener más información sobre los CloudWatch paneles de Amazon, consulte [Uso de los CloudWatch paneles de Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) en la Guía * CloudWatch del usuario de Amazon*.

Si no quieres crear el CloudWatch panel de Amazon, puedes desactivarlo configurando [`Monitoring`](Monitoring-v3.md)//[`Dashboards`[`CloudWatch`](Monitoring-v3.md#yaml-Monitoring-Dashboard-CloudWatch)](Monitoring-v3.md#yaml-Monitoring-Dashboards)/[`Enabled`](Monitoring-v3.md#yaml-Monitoring-Dashboard-CloudWatch-Enabled)en`false`.

**nota**  
Si inhabilitas la creación del CloudWatch panel de control de Amazon, también inhabilitas Amazon CloudWatch `disk_used_percent` y `memory_used_percent` las alarmas de tu clúster. Para obtener más información, consulte [CloudWatch Alarmas de Amazon para métricas de clústeres](cloudwatch-alarms-v3.md).  
`memory_used_percent`Las alarmas `disk_used_percent` y se añaden a partir de AWS ParallelCluster la versión 3.6.

# CloudWatch Alarmas de Amazon para métricas de clústeres
<a name="cloudwatch-alarms-v3"></a>

AWS ParallelCluster configura las CloudWatch alarmas de Amazon para supervisar el estado y la utilización de los recursos del nodo principal. Las alarmas tienen un nombre`cluster-name-HeadNode-metric`, donde *cluster-name* aparece el nombre del clúster e *metric* identifica la métrica que se está monitoreando.

Acceda a las alarmas de la CloudWatch consola seleccionando **Alarmas** en el panel de navegación.

Una alarma compuesta denominada `cluster-name-HeadNode` entra en `ALARM` estado cuando se activa cualquiera de las alarmas individuales del nodo principal.

## Alarmas de disco y memoria
<a name="cloudwatch-alarms-v3-disk-mem"></a>

A partir de AWS ParallelCluster la versión 3.6.0, se crean las siguientes CloudWatch alarmas:
+ `cluster-name-HeadNode-Disk`— Supervisa la `disk_used_percent` métrica del volumen raíz. Entra en el `ALARM` estado en el que el uso del disco es superior al 90% para 1 punto de datos en un período de 1 minuto.
+ `cluster-name-HeadNode-Mem`— Supervisa la `mem_used_percent` métrica. Entra en el `ALARM` estado en el que el uso de memoria es superior al 90% para 1 punto de datos en un período de 1 minuto.

Para obtener más información, consulta [las métricas recopiladas por el CloudWatch agente](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/metrics-collected-by-CloudWatch-agent.html) en la *Guía del CloudWatch usuario de Amazon*.

## Health Check y alarmas de CPU
<a name="cloudwatch-alarms-v3-health-cpu"></a>

A partir de AWS ParallelCluster la versión 3.8.0, se crean las siguientes CloudWatch alarmas:
+ `cluster-name-HeadNode-Health`— Supervisa la métrica de Amazon EC2`StatusCheckFailed`. Ingresa al `ALARM` estado cuando el valor es superior a 0 para 1 punto de datos en un período de 1 minuto.
+ `cluster-name-HeadNode-Cpu`— Supervisa la métrica de Amazon EC2`CPUUtilization`. Entra en el `ALARM` estado en el que el uso de la CPU es superior al 90% para 1 punto de datos en un período de 1 minuto.

## Alarma de latido del daemon de administración de clústeres
<a name="cloudwatch-alarms-v3-clustermgtd"></a>

A partir de AWS ParallelCluster la versión 3.15.0, cuando se habilita el CloudWatch registro de Amazon y se utiliza el Slurm programador, se crea la siguiente alarma:
+ `cluster-name-HeadNode-ClustermgtdHeartbeat`— Supervisa la `ClustermgtdHeartbeat` métrica en el espacio de nombres. `ParallelCluster` La alarma entra en `ALARM` estado cuando se recibe menos de 1 latido por 10 puntos de datos consecutivos en un período de 1 minuto. Los datos faltantes se consideran una violación.

**nota**  
Todas las alarmas se recuperan simétricamente: la recuperación se rige por los mismos puntos de datos y el mismo período de evaluación que activaron la alarma. Por ejemplo, las alarmas con 1 punto de datos se recuperan después de 1 punto de datos válido dentro del mismo período de observación; del mismo modo, la `ClustermgtdHeartbeat` alarma necesita 10 puntos de datos válidos consecutivos (10 minutos) para volver a ellos. `OK`

**nota**  
AWS ParallelCluster no configura las acciones de alarma. Para obtener información sobre cómo configurar las acciones de alarma, como el envío de notificaciones, consulte [Acciones de alarma](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions). Para obtener más información sobre CloudWatch las alarmas de Amazon, consulta [Uso de CloudWatch las alarmas de Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) en la *Guía del CloudWatch usuario de Amazon*.  
Para AWS ParallelCluster la versión 3.8.0 y posteriores, deshabilite las alarmas configurando [`Monitoring`](Monitoring-v3.md)/[`Alarms`](Monitoring-v3.md#yaml-Monitoring-Alarms)/`false`en [`Enabled`](Monitoring-v3.md#yaml-Monitoring-Alarms-Enabled)la configuración de su clúster.  
Para AWS ParallelCluster las versiones anteriores a la 3.8.0, deshabilite las alarmas configurando [`Monitoring`](Monitoring-v3.md)/[`Dashboards`](Monitoring-v3.md#yaml-Monitoring-Dashboards)/[`CloudWatch`](Monitoring-v3.md#yaml-Monitoring-Dashboard-CloudWatch)/`false`en [`Enabled`](Monitoring-v3.md#yaml-Monitoring-Dashboard-CloudWatch-Enabled)la configuración del clúster. Ten en cuenta que esta configuración también desactiva el CloudWatch panel de control de Amazon. Consulta [CloudWatch Panel de control de Amazon](cloudwatch-dashboard-v3.md) para obtener más información.

# AWS ParallelCluster rotación de registros configurada
<a name="log-rotation-v3"></a>

Las configuraciones de rotación de AWS ParallelCluster registros se encuentran en `/etc/logrotate.d/parallelcluster_*_log_rotation` archivos. Cuando un registro configurado rota, el contenido del registro actual se conserva en una sola copia de seguridad y el registro vacío reanuda la acción de registro.

Solo se mantiene una copia de seguridad por cada registro configurado.

AWS ParallelCluster configura un registro de rápido crecimiento para que gire cuando alcance un tamaño de 50 MB. Los registros de rápido crecimiento están relacionados con el escalado y Slurm, incluidos `/var/log/parallelcluster/clustermgtd``/var/log/parallelcluster/slurm_resume.log`, y. `/var/log/slurmctld.log`

AWS ParallelCluster configura un registro de crecimiento lento para que gire cuando alcance un tamaño de 10 MB.

Puede ver los registros anteriores que se conservan durante el número de días definido en la configuración del clúster [`Logs`](Monitoring-v3.md#yaml-Monitoring-Logs)/[`CloudWatch`](Monitoring-v3.md#yaml-Monitoring-Logs-CloudWatch)/con CloudFormation el registro [`RetentionInDays`](Monitoring-v3.md#yaml-Monitoring-Logs-CloudWatch-RetentionInDays)activado. Compruebe la configuración de `RetentionInDays` para ver si es necesario aumentar el número de días según su caso de uso.

AWS ParallelCluster configura y rota los siguientes registros:

**Registros del nodo principal**

```
/var/log/cloud-init.log
/var/log/supervisord.log
/var/log/cfn-init.log
/var/log/chef-client.log
/var/log/dcv/server.log
/var/log/dcv/sessionlauncher.log
/var/log/dcv/agent.*.log
/var/log/dcv/dcv-xsession.*.log
/var/log/dcv/Xdcv.*.log
/var/log/parallelcluster/pam_ssh_key_generator.log
/var/log/parallelcluster/clustermgtd
/var/log/parallelcluster/clusterstatusmgtd
/var/log/parallelcluster/slurm_fleet_status_manager.log
/var/log/parallelcluster/slurm_resume.log
/var/log/parallelcluster/slurm_suspend.log
/var/log/slurmctld.log
/var/log/slurmdbd.log
/var/log/parallelcluster/compute_console_output.log
```

**Registros de nodos de computación**

```
/var/log/cloud-init.log
/var/log/supervisord.log
/var/log/cloud-init-output.log
/var/log/parallelcluster/computemgtd
/var/log/slurmd.log
```

**Registros de nodos de inicio de sesión**

```
/var/log/cloud-init.log
/var/log/cloud-init.log
/var/log/cloud-init-output.log
/var/log/supervisord.log
/var/log/parallelcluster/pam_ssh_key_generator.log
```

# Registros de CLI de `pcluster`
<a name="troubleshooting-v3-pc-cli-logs"></a>

La CLI de `pcluster` escribe los registros de sus comandos en archivos `pcluster.log.#` en `/home/user/.parallelcluster/`.

Para cada comando, los registros suelen incluir el comando con las entradas, una copia de la versión de la API de la CLI utilizada para crear el comando, la respuesta y los mensajes de información y error. En el caso de los comandos de creación y compilación, los registros también incluyen el archivo de configuración, las operaciones de validación del archivo de configuración, la CloudFormation plantilla y los comandos de pila.

Puede usar estos registros para verificar errores, entradas, versiones y comandos de la CLI de `pcluster`. También pueden servir como registro de cuándo se emitieron los comandos.

# Registros de salida de la EC2 consola Amazon
<a name="console-logs-v3"></a>

Cuando AWS ParallelCluster detecta que una instancia de nodo de cómputo estática termina inesperadamente, intenta recuperar el resultado de la EC2 consola de Amazon desde la instancia de nodo terminada una vez transcurrido un período de tiempo. De esta forma, si el nodo de cómputo no ha podido comunicarse con Amazon CloudWatch, es posible que se siga recuperando de la salida de la consola información útil para la solución de problemas sobre por qué se terminó el nodo. Esta salida de la consola se registra en el registro `/var/log/parallelcluster/compute_console_output` del nodo principal. Para obtener más información sobre la salida de la EC2 consola de Amazon, consulte la [salida de la consola de instancias](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/instance-console.html#instance-console-console-output) en la *Guía del EC2 usuario de Amazon para instancias de Linux*.

De forma predeterminada, AWS ParallelCluster solo recupera la salida de la consola de un subconjunto de muestras de nodos terminados. Esto evita que el nodo principal del clúster se vea abrumado por varias solicitudes de salida de la consola provocadas por un gran número de finalizaciones. De forma predeterminada, AWS ParallelCluster espera 5 minutos entre la detección de la terminación y la recuperación de la salida de la consola para que Amazon tenga EC2 tiempo de recuperar la salida final de la consola de los nodos.

Puede editar el tamaño de la muestra y los valores de los parámetros del tiempo de espera en el archivo `/etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf` del nodo principal.

Esta función se añade en la AWS ParallelCluster versión 3.5.0.

## Parámetros de salida de la EC2 consola Amazon
<a name="console-logs-parameters-v3"></a>

Puedes editar los valores de los siguientes parámetros de salida de la EC2 consola Amazon en el `/etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf` archivo del nodo principal.

### `compute_console_logging_enabled`
<a name="console-logs-enable-v3"></a>

Para deshabilitar la recopilación de registros de salida de la consola, establezca `compute_console_logging_enabled` en `false`. El valor predeterminado es `true`.

Puede actualizar este parámetro en cualquier momento, sin detener la flota de computación.

### `compute_console_logging_max_sample_size`
<a name="console-logs-max-sample-size-v3"></a>

`compute_console_logging_max_sample_size`establece el número máximo de nodos de cómputo desde los que se AWS ParallelCluster recopilan las salidas de la consola cada vez que detecta una terminación inesperada. Si este valor es inferior a`1`, AWS ParallelCluster recupera la salida de la consola de todos los nodos terminados. El valor predeterminado es `1`.

Puede actualizar este parámetro en cualquier momento, sin detener la flota de computación.

### `compute_console_wait_time`
<a name="console-logs-wait-time-v3"></a>

`compute_console_wait_time`establece el tiempo, en segundos, que AWS ParallelCluster transcurre entre la detección de un fallo en un nodo y la recopilación de la salida de la consola desde ese nodo. Puede aumentar el tiempo de espera si determina que Amazon EC2 necesita más tiempo para recopilar la salida final del nodo terminado. El valor predeterminado es de 300 segundos (5 minutos).

Puede actualizar este parámetro en cualquier momento, sin detener la flota de computación.

# Recupere los registros de tiempo de ejecución y AWS ParallelCluster de la PCUI
<a name="troubleshooting-v3-get-runtime-logs"></a>

Aprenda a recuperar la PCUI y los registros de AWS ParallelCluster tiempo de ejecución para solucionar problemas. Para empezar, busque la PCUI y los nombres de las pilas de AWS ParallelCluster correspondientes. Utilice el nombre de la pila para localizar los grupos de registros de instalación. Para terminar, exporte los registros. Estos registros son específicos del AWS ParallelCluster tiempo de ejecución. Para los registros de clúster, consulte [Recuperación y conservación de registros](troubleshooting-v3-get-logs.md).

**Requisitos previos**
+ El AWS CLI está instalado.
+ Tiene credenciales para ejecutar AWS CLI comandos en el lugar en el Cuenta de AWS que se encuentra la PCUI.
+ Puede acceder a la CloudWatch consola de Amazon en la Cuenta de AWS que esté encendida la PCUI.

## Paso 1: busque los nombres de las pilas correspondientes
<a name="pcui-install-logs-v3-step-1"></a>

En el siguiente ejemplo, reemplace el texto resaltado en rojo con sus valores reales.

Enumere las pilas utilizando el Región de AWS lugar donde instaló la PCUI:

```
$ aws cloudformation list-stacks --region aws-region-id
```

Anote los nombres de las pilas de las siguientes pilas:
+ El nombre de la pila que implementó la PCUI en su cuenta. Introdujo este nombre al instalar la PCUI; por ejemplo, `pcluster-ui`.
+ La AWS ParallelCluster pila que lleva el prefijo del nombre de pila que ha introducido; por ejemplo,. `pcluster-ui-ParallelClusterApi-ABCD1234EFGH`

## Paso 2: Localice los grupos de registros
<a name="pcui-install-logs-v3-step-2"></a>

Haga una lista con los grupos de registros de la pila de PCUI, tal y como se muestra en el siguiente ejemplo: siguiente:

```
$ aws cloudformation describe-stack-resources \
   --region aws-region-id \
   --stack-name pcluster-ui \
   --query "StackResources[?ResourceType == 'AWS::Logs::LogGroup' && (LogicalResourceId == 'ApiGatewayAccessLog' || LogicalResourceId == 'ParallelClusterUILambdaLogGroup')].PhysicalResourceId" \
   --output text
```

Enumera los grupos de registros de la pila de AWS ParallelCluster API, como se muestra en el siguiente ejemplo:

```
$ aws cloudformation describe-stack-resources \
   --region aws-region-id \
   --stack-name pcluster-ui-ParallelCluster-Api-ABCD1234EFGH \
   --query "StackResources[?ResourceType == 'AWS::Logs::LogGroup' && LogicalResourceId == 'ParallelClusterFunctionLogGroup'].PhysicalResourceId" \
   --output text
```

observar las listas de grupos de registros que se utilizarán en el siguiente paso.

## Paso 3: exportar los registros
<a name="pcui-install-logs-v3-step-3"></a>

Siga los siguientes pasos para recopilar y exportar los registros:

1. Inicie sesión en y Consola de administración de AWS, a continuación, navegue hasta la CloudWatch consola de [Amazon](https://console.aws.amazon.com/cloudwatch/) en la Cuenta de AWS que esté encendida la PCUI.

1. En el panel de navegación, elija **Registros** y luego, **Logs Insights** en el panel de navegación.

1. Seleccione todos los grupos de registros que se muestran en el paso anterior.

1. Elija un intervalo de tiempo, como 12 horas.

1. Ejecute la siguiente consulta:

   ```
   $ fields @timestamp, @message
   | sort @timestamp desc
   | limit 10000
   ```

1. Seleccione **Exportar resultados**, **Descargar tabla (JSON)**.

# Recuperación y conservación de registros
<a name="troubleshooting-v3-get-logs"></a>

AWS ParallelCluster crea EC2 métricas de Amazon para las instancias HeadNode y el almacenamiento de datos de Amazon. Puede ver las métricas en los **paneles de control personalizados** de la CloudWatch consola. AWS ParallelCluster también crea flujos de CloudWatch registro de clústeres en grupos de registros. Puede ver estos registros en los **paneles personalizados** de la CloudWatch consola o en los **grupos de registros**. La sección [Supervisión](Monitoring-v3.md#yaml-Monitoring-Logs-CloudWatch) de la configuración del clúster describe cómo puede modificar los CloudWatch registros y el panel del clúster. Para obtener más información, consulte [Integración con Amazon CloudWatch Logs](cloudwatch-logs-v3.md) y [CloudWatch Panel de control de Amazon](cloudwatch-dashboard-v3.md).

Los registros son un recurso útil para solucionar problemas. Por ejemplo, si desea eliminar un clúster que falla, puede ser útil crear primero un archivo con los registros del clúster. Siga los pasos que se indican en [Registros de archivos](#troubleshooting-v3-get-logs-archive) para crear un archivo.

**Topics**
+ [Los registros del clúster no están disponibles en CloudWatch](#troubleshooting-v3-get-logs-unavailable)
+ [Registros de archivos](#troubleshooting-v3-get-logs-archive)
+ [Registros conservados](#troubleshooting-v3-get-logs-preserve)
+ [Registros de nodos finalizados](#troubleshooting-v3-get-logs-terminated-node)

## Los registros del clúster no están disponibles en CloudWatch
<a name="troubleshooting-v3-get-logs-unavailable"></a>

Si los registros del clúster no están disponibles en CloudWatch, asegúrate de no haber sobrescrito la configuración del AWS ParallelCluster CloudWatch registro al añadir registros personalizados a la configuración.

Para añadir registros personalizados a la CloudWatch configuración, asegúrate de añadirlos a la configuración en lugar de buscarlos y sobrescribirlos. *Para obtener más información sobre `fetch-config` y`append-config`, consulte los [archivos de configuración de varios CloudWatch agentes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Agent-common-scenarios.html#CloudWatch-Agent-multiple-config-files) en la Guía del CloudWatch usuario.*

Para restaurar la configuración del AWS ParallelCluster CloudWatch registro, puede ejecutar los siguientes comandos dentro de un AWS ParallelCluster nodo:

```
$ PLATFORM="$(ohai platform | jq -r ".[]")"
LOG_GROUP_NAME="$(cat /etc/chef/dna.json | jq -r ".cluster.log_group_name")"
SCHEDULER="$(cat /etc/chef/dna.json | jq -r ".cluster.scheduler")"
NODE_ROLE="$(cat /etc/chef/dna.json | jq -r ".cluster.node_type")"
CONFIG_DATA_PATH="/usr/local/etc/cloudwatch_agent_config.json"
/opt/parallelcluster/pyenv/versions/cookbook_virtualenv/bin/python /usr/local/bin/write_cloudwatch_agent_json.py --platform $PLATFORM --config $CONFIG_DATA_PATH --log-group $LOG_GROUP_NAME --scheduler $SCHEDULER --node-role $NODE_ROLE
/opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:/opt/aws/amazon-cloudwatch-agent/etc/amazon-cloudwatch-agent.json -s
```

## Registros de archivos
<a name="troubleshooting-v3-get-logs-archive"></a>

Puede archivar los registros en Amazon S3 o en un archivo local (según el parámetro `--output-file`).

**nota**  
A partir de la AWS ParallelCluster versión 3.12.0, puede exportar los registros al depósito predeterminado AWS ParallelCluster . En este caso, no necesitas configurar los permisos del bucket. 

**nota**  
Añada permisos a la política de bucket de Amazon S3 para conceder el CloudWatch acceso. Para obtener más información, consulte [Establecer permisos en un bucket de Amazon S3](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/S3ExportTasks.html#S3Permissions) en la *Guía del usuario de CloudWatch Logs*.

```
$ pcluster export-cluster-logs --cluster-name mycluster --region eu-west-1 \
  --bucket bucketname --bucket-prefix logs
{
  "url": "https://bucketname.s3.eu-west-1.amazonaws.com/export-log/mycluster-logs-202109071136.tar.gz?..."
}

# use the --output-file parameter to save the logs locally
$ pcluster export-cluster-logs --cluster-name mycluster --region eu-west-1 \
  --bucket bucketname --bucket-prefix logs --output-file /tmp/archive.tar.gz
{
  "path": "/tmp/archive.tar.gz"
}
```

El archivo contiene las transmisiones y los eventos de CloudFormation pila de Amazon CloudWatch Logs del nodo principal y de los nodos de cómputo de los últimos 14 días, a menos que se especifique explícitamente en la configuración o en los parámetros del `export-cluster-logs` comando. El tiempo que tarda el comando en finalizar depende del número de nodos del clúster y del número de flujos de registro disponibles en CloudWatch los registros. Para obtener más información sobre los flujos de registro disponibles, consulte [Integración con Amazon CloudWatch Logs](cloudwatch-logs-v3.md).

## Registros conservados
<a name="troubleshooting-v3-get-logs-preserve"></a>

A partir de la versión 3.0.0, AWS ParallelCluster conserva CloudWatch los registros de forma predeterminada cuando se elimina un clúster. Si quiere eliminar un clúster y conservar sus registros, asegúrese de que [`Monitoring`](Monitoring-v3.md)/[`Logs`](Monitoring-v3.md#yaml-Monitoring-Logs)/[`CloudWatch`](Monitoring-v3.md#yaml-Monitoring-Logs-CloudWatch)/[`DeletionPolicy`](Monitoring-v3.md#yaml-Monitoring-Logs-CloudWatch-DeletionPolicy) no esté establecido como `Delete` en la configuración del clúster. De lo contrario, cambie el valor de este campo a `Retain` y ejecute el comando `pcluster update-cluster`. A continuación, ejecuta `pcluster delete-cluster --cluster-name <cluster_name>` para eliminar el clúster, pero conserva el grupo de registros que está almacenado en Amazon CloudWatch.

## Registros de nodos finalizados
<a name="troubleshooting-v3-get-logs-terminated-node"></a>

Si un nodo de cómputo estático termina inesperadamente y no CloudWatch tiene registros, compruebe si AWS ParallelCluster ha registrado la salida de la consola de ese nodo de cómputo en el nodo principal del `/var/log/parallelcluster/compute_console_output` registro. Para obtener más información, consulte [Registros clave para la depuración](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-key-logs).

Si el `/var/log/parallelcluster/compute_console_output` registro no está disponible o no contiene el resultado del nodo, utilícelo AWS CLI para recuperar el resultado de la consola del nodo defectuoso. Inicie sesión en el nodo principal del clúster y obtenga el nodo fallido `instance-id` del archivo `/var/log/parallelcluster/slurm_resume.log`. 

Recupere la salida de la consola mediante el siguiente comando con el `instance-id`:

```
$ aws ec2 get-console-output --instance-id i-abcdef01234567890
```

Si un nodo de procesamiento dinámico se cierra automáticamente tras su lanzamiento y no CloudWatch tiene registros, envíe un trabajo que active una acción de escalado del clúster. Espere a que se produzca un error en la instancia y recupere el registro de la consola de la instancia.

Inicie sesión en el nodo principal del clúster y obtenga el nodo de computación `instance-id` del archivo `/var/log/parallelcluster/slurm_resume.log`.

Para recuperar el registro de la consola de la instancia, usa el siguiente comando:

```
$ aws ec2 get-console-output --instance-id i-abcdef01234567890
```

El registro de salidas de la consola puede ayudarle a depurar la causa raíz de un error en un nodo de computación cuando el registro del nodo de computación no esté disponible.