Configuration des paramètres personnalisés de Slurm dans PCS AWS - AWS PCS

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Configuration des paramètres personnalisés de Slurm dans PCS AWS

Utilisez des paramètres Slurm personnalisés pour configurer des paramètres Slurm supplémentaires sur les ressources du cluster, de la file d'attente et du groupe de nœuds de calcul. Cette version ajoute la prise en charge des paramètres Slurm sur les ressources de file d'attente, offrant ainsi un contrôle granulaire des comportements spécifiques aux partitions.

Avantages des paramètres personnalisés de Slurm

Les paramètres personnalisés de Slurm fournissent un contrôle sophistiqué de votre environnement AWS HPC basé sur PC. Vous pouvez mettre en œuvre une comptabilité détaillée, appliquer des contrôles d'accès et optimiser l'exécution de la charge de travail grâce à des quality-of-service configurations et à des politiques de préemption. Ces fonctionnalités garantissent que les tâches critiques reçoivent les ressources nécessaires tout en maintenant une utilisation efficace du cluster. Que vous gériez des charges de travail accélérées par le GPU, que vous implémentiez une planification équitable ou que vous contrôliez le cycle de vie des tâches, les paramètres personnalisés vous aident à aligner votre infrastructure HPC sur les exigences opérationnelles et les objectifs de recherche.

Configuration de paramètres personnalisés

Les paramètres personnalisés de Slurm peuvent être configurés via la AWS console, la CLI, SDKs lors de la création de ressources ou modifiés ultérieurement par le biais d'opérations de mise à jour.

AWS Management Console

Accédez aux paramètres supplémentaires du planificateur dans la page de création ou de modification pour n'importe quel type de ressource (cluster, file d'attente ou groupe de nœuds de calcul).

Pour ajouter un nouveau paramètre
  1. Choisissez Ajouter un nouveau paramètre.

  2. Sélectionnez un nom de paramètre dans la liste déroulante (qui inclut de brèves descriptions des paramètres).

  3. Indiquez la valeur correspondante.

Pour annuler un paramètre personnalisé
  1. Choisissez Supprimer à côté de la parameter/value paire correspondante.

  2. Créez ou mettez à jour la ressource.

AWS CLI

Pour la gestion programmatique des paramètres personnalisés, utilisez le SlurmCustomSettings champ dans les opérations de création ou de mise à jour.

Exemple — Mise à jour du Prolog paramètre sur un cluster
aws pcs update-cluster --cluster-identifier my-cluster \ --slurm-configuration \ 'SlurmCustomSettings=[{parameterName=Prolog,parameterValue="/path/to/prolog.sh"}]'
Exemple — Configuration d'une file d'attente pour qu'elle Default figure sur un cluster
aws pcs update-queue \ --cluster-identifier my-cluster \ --queue-identifier my-queue \ --slurm-configuration 'SlurmCustomSettings=[{parameterName=Default,parameterValue=YES}]'
Exemple — Configuration personnalisée Features sur un groupe de nœuds de calcul
aws pcs update-compute-node-group \ --cluster-identifier my-cluster \ --compute-node-group-identifier my-cng-1 \ --slurm-configuration \ 'SlurmCustomSettings=[{parameterName=Features,parameterValue="gpu,nvme"}]'

Validation et gestion des erreurs

AWS PCS met en œuvre un processus de validation à plusieurs niveaux pour les paramètres personnalisés de Slurm. Au cours des opérations de création et de mise à jour, nous effectuons des validations synchrones qui incluent :

  • Contrôles au niveau du terrain : nous validons les paramètres individuels pour les types de données corrects, les valeurs autorisées et les exigences de format. Par exemple, nous nous assurons que les valeurs temporelles sont au format Slurm correct et que les valeurs booléennes utilisent les représentations booléennes Slurm acceptées.

  • Validations sensibles au contexte : certains paramètres sont vérifiés par rapport au contexte de configuration plus large. Par exemple, certains paramètres ne sont valides que lorsque la comptabilité Slurm est activée.

  • Cohérence entre les paramètres : nous vérifions que les options qui s'excluent mutuellement ne sont pas définies ensemble et que les paramètres interdépendants sont correctement configurés.

Si la validation échoue, vous recevrez un ValidationException code d'erreur spécifique (par exemple, InvalidInput), un message d'erreur clair décrivant le problème, ainsi qu'une liste des champs non valides et leurs informations d'erreur respectives.

Bien que de nombreux problèmes soient détectés lors de cette validation initiale, certaines interactions complexes entre les paramètres ne peuvent apparaître que lors de l'application de la configuration. Dans ce cas, l'opération échouera avec un message d'erreur informatif, et toute modification partielle sera annulée.

Limites

AWS Le PCS met en œuvre une approche de liste d'autorisation pour protéger la sécurité des services et la stabilité opérationnelle. Les paramètres susceptibles de compromettre la sécurité des comptes de service ou d'interférer avec les fonctionnalités des services gérés sont limités. Cependant, nous évaluons en permanence les besoins des clients et pouvons ajouter un support pour des paramètres supplémentaires en fonction des commentaires des clients.