

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Secretos de clústeres rotativos en AWS PCS
<a name="cluster-secret-rotation"></a>

Utilice la rotación AWS Secrets Manager gestionada para rotar los secretos del clúster en AWS PCS. La rotación periódica de los secretos es una buena práctica de seguridad para mantener una sólida postura de seguridad en los entornos de HPC. Esta capacidad le permite cumplir con los estándares de cumplimiento de la industria, incluidos la HIPAA y el FedRAMP, que exigen la rotación regular de credenciales.

El secreto del clúster tiene un doble propósito: autenticar los nodos de cómputo que se unen al clúster y servir de clave JWT para la autenticación de la API REST de Slurm. Cuando se rota, ambos aspectos se ven afectados simultáneamente.

## Cómo funciona la rotación secreta de los clústeres
<a name="cluster-secret-rotation-overview"></a>

Prepárese manualmente para mantener la estabilidad del clúster durante la rotación secreta:

1. **Preparación**: escale todos los grupos de nodos de cómputo a una capacidad del 0% y asegúrese de que no se esté ejecutando ningún trabajo

1. **Rotación**: inicie la rotación a través de la consola o la API de Secrets Manager

1. **Supervisión**: realice un seguimiento del progreso a lo largo de CloudTrail los eventos

1. **Recuperación**: escale los grupos de nodos de cómputo hasta alcanzar la capacidad deseada

Durante la rotación, el clúster permanece en ese `ACTIVE` estado y la facturación continúa con normalidad. El proceso suele tardar unos minutos.

## Requisitos y limitaciones
<a name="cluster-secret-rotation-requirements"></a>

Antes de rotar los secretos del clúster, complete estos requisitos:
+ El clúster debe estar en `ACTIVE` nuestro `UPDATE_FAILED` estado
+ El rol de IAM debe tener permiso `secretsmanager:RotateSecret`
+ Todos los grupos de nodos de cómputo deben escalarse a una capacidad igual a 0
+ Detenga todos los trabajos antes de la rotación

Limitaciones:
+ Se requiere una preparación manual para cada rotación
+ Los tokens JWT existentes dejan de ser válidos y deben volver a emitirse
+ Los nodos de inicio de sesión BYO requieren una actualización manual del secreto después de la rotación

**Topics**
+ [Cómo funciona la rotación secreta de los clústeres](#cluster-secret-rotation-overview)
+ [Requisitos y limitaciones](#cluster-secret-rotation-requirements)
+ [Rota el secreto de un clúster en AWS PCS](cluster-secret-rotation-procedure.md)
+ [Preguntas frecuentes sobre la rotación secreta de clústeres en AWS PCS](cluster-secret-rotation-faq.md)
+ [Solución de problemas de rotación de secretos de clústeres en AWS PCS](cluster-secret-rotation-troubleshooting.md)

# Rota el secreto de un clúster en AWS PCS
<a name="cluster-secret-rotation-procedure"></a>

Cambie el secreto de su clúster para cumplir con los requisitos de seguridad y hacer frente a posibles riesgos. Este proceso requiere poner el clúster en modo de mantenimiento.

## Requisitos previos
<a name="cluster-secret-rotation-procedure-prerequisites"></a>
+ Función de IAM con permiso `secretsmanager:RotateSecret`
+ Clúster en `ACTIVE` nuestro estado `UPDATE_FAILED`

## Procedimiento
<a name="cluster-secret-rotation-procedure-steps"></a>

1. Notifique a los usuarios del clúster sobre el próximo período de mantenimiento.

1. Coloque el clúster en modo de mantenimiento escalando todos los grupos de nodos de cómputo a una capacidad cero.

   1. Utilice la UpdateComputeNodeGroup API para establecer ambos minInstanceCount valores en 0 maxInstanceCount para todos los grupos de nodos de cómputo.

   1. Espere a que se detengan todos los nodos.

   1. Opcional: vacíe las colas del programador con los comandos de Slurm antes de cerrar la capacidad para gestionar los trabajos sin problemas.

1. Inicie la rotación a través de Secrets Manager.
   + **Método de consola**:

     1. Ve a Secrets Manager, selecciona el secreto de tu clúster y elige **Rotar secreto**.
   + **Método de API**:

     1. Usa la `rotate-secret` API Secrets Manager.

1. Supervise el progreso de la rotación.

   1. Realice un seguimiento del progreso a través de CloudTrail los eventos.

   1. `lastRotatedDate`Compruébelo en la consola de Secrets Manager o en la `secretsmanager:describeSecret` API.

   1. Espere a `RotationSucceeded` nuestro `RotationFailed` CloudTrail evento.

1. Tras una rotación correcta, restaure la capacidad del clúster.

   1. Usa la UpdateComputeNodeGroup API para restablecer los grupos de nodos a la min/max capacidad deseada.

   1. Para los nodos de inicio de sesión AWS gestionados por PCS: no es necesario realizar ninguna acción adicional.

   1. Para los nodos de inicio de sesión BYO:

      1. Conéctese a los nodos de inicio de sesión.

      1. Actualiza `/etc/slurm/slurm.key` con el nuevo secreto de Secrets Manager.

      1. Reinicia el daemon Slurm Auth and Cred Kiosk (sackd).

# Preguntas frecuentes sobre la rotación secreta de clústeres en AWS PCS
<a name="cluster-secret-rotation-faq"></a>

Encuentre respuestas a preguntas frecuentes sobre la rotación de secretos de clústeres en AWS PCS.

**¿Qué es un secreto de clúster?**  
Un secreto de clúster es una credencial segura que permite una comunicación segura entre el controlador Slurm y los nodos de cómputo del AWS PCS. También sirve como clave del token web JSON (JWT) para la autenticación de la API REST de Slurm.

**¿Cuál es la diferencia entre el secreto del clúster y la clave JWT?**  
En AWS PCS, el secreto del clúster y la clave JWT son el mismo recurso y tienen diferentes propósitos. El secreto del clúster autentica las comunicaciones internas de Slurm, mientras que la clave JWT firma los tokens para la autenticación de la API REST. Cuando se gira, ambos aspectos se ven afectados simultáneamente.

**¿Cuánto dura la rotación?**  
El proceso de rotación suele tardar unos minutos. El clúster permanece en estado ACTIVO y la facturación continúa con normalidad durante la rotación.

**¿Puedo programar rotaciones automáticas?**  
Puede activar la rotación programada en Secrets Manager. Sin embargo, la versión inicial requiere una preparación manual (escalando los grupos de nodos a 0) antes de cada rotación.

**¿Seguirán funcionando mis fichas JWT actuales después de la rotación?**  
No, los tokens JWT existentes dejan de ser válidos después de la rotación. Emita nuevos tokens para los clientes de la API REST.

**¿Dónde puedo encontrar el secreto de mi clúster?**  
Puede encontrar el secreto de su clúster en la consola Secrets Manager o en la consola AWS PCS. Para obtener instrucciones detalladas, consulte [Úselo AWS Secrets Manager para encontrar el secreto del clúster](working-with_clusters_secrets_find_secrets-manager.md) y[Utilice AWS PCS para encontrar el secreto del clúster](working-with_clusters_secrets_find_pcs.md).

**¿Por qué la rotación requiere escalar los grupos de nodos a 0?**  
La rotación no requiere que se ejecuten instancias para garantizar la estabilidad del clúster durante el proceso de actualización secreta. Esto evita conflictos de autenticación entre los secretos antiguos y los nuevos.

**¿Qué requisitos de conformidad admite esta función?**  
Esta función permite a AWS PCS cumplir con los estándares de cumplimiento de la industria, incluidos la HIPAA y FedRAMP, que exigen la rotación regular de credenciales como parte de sus controles de seguridad.

# Solución de problemas de rotación de secretos de clústeres en AWS PCS
<a name="cluster-secret-rotation-troubleshooting"></a>

La rotación del secreto del clúster falla si el entorno no está preparado adecuadamente. La causa más común son las instancias activas del clúster. Para evitar errores:

1. Establezca todos los grupos de nodos en una capacidad igual a 0.

1. Espere a que los nodos se detengan.

1. Compruebe que el clúster no esté en los siguientes estados: `CREATE_FAILED``DELETE_FAILED`,`RESUMING`,`SUSPENDING`, o`SUSPENDED`.

Si la rotación falla:
+ Aparece un RotationFailed CloudTrail evento
+ El secreto del clúster permanece inalterado
+ Consulta el RotationFailed evento CloudTrail para obtener más información
+ Complete todos los pasos de preparación para una rotación exitosa