Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Configuration des paramètres personnalisés de Slurm dans PCS AWS
Utilisez des paramètres Slurm personnalisés pour configurer des paramètres Slurm supplémentaires sur les ressources du cluster, de la file d'attente et du groupe de nœuds de calcul. Cette version ajoute la prise en charge des paramètres Slurm sur les ressources de file d'attente, offrant ainsi un contrôle granulaire des comportements spécifiques aux partitions.
Avantages des paramètres personnalisés de Slurm
Les paramètres personnalisés de Slurm fournissent un contrôle sophistiqué de votre environnement AWS HPC basé sur PC. Vous pouvez mettre en œuvre une comptabilité détaillée, appliquer des contrôles d'accès et optimiser l'exécution de la charge de travail grâce à des quality-of-service configurations et à des politiques de préemption. Ces fonctionnalités garantissent que les tâches critiques reçoivent les ressources nécessaires tout en maintenant une utilisation efficace du cluster. Que vous gériez des charges de travail accélérées par le GPU, que vous implémentiez une planification équitable ou que vous contrôliez le cycle de vie des tâches, les paramètres personnalisés vous aident à aligner votre infrastructure HPC sur les exigences opérationnelles et les objectifs de recherche.
Configuration de paramètres personnalisés
Les paramètres personnalisés de Slurm peuvent être configurés via la AWS console, la CLI, SDKs lors de la création de ressources ou modifiés ultérieurement par le biais d'opérations de mise à jour.
Validation et gestion des erreurs
AWS PCS met en œuvre un processus de validation à plusieurs niveaux pour les paramètres personnalisés de Slurm. Au cours des opérations de création et de mise à jour, nous effectuons des validations synchrones qui incluent :
-
Contrôles au niveau du terrain : nous validons les paramètres individuels pour les types de données corrects, les valeurs autorisées et les exigences de format. Par exemple, nous nous assurons que les valeurs temporelles sont au format Slurm correct et que les valeurs booléennes utilisent les représentations booléennes Slurm acceptées.
-
Validations sensibles au contexte : certains paramètres sont vérifiés par rapport au contexte de configuration plus large. Par exemple, certains paramètres ne sont valides que lorsque la comptabilité Slurm est activée.
-
Cohérence entre les paramètres : nous vérifions que les options qui s'excluent mutuellement ne sont pas définies ensemble et que les paramètres interdépendants sont correctement configurés.
Si la validation échoue, vous recevrez un ValidationException
code d'erreur spécifique (par exemple, InvalidInput), un message d'erreur clair décrivant le problème, ainsi qu'une liste des champs non valides et leurs informations d'erreur respectives.
Bien que de nombreux problèmes soient détectés lors de cette validation initiale, certaines interactions complexes entre les paramètres ne peuvent apparaître que lors de l'application de la configuration. Dans ce cas, l'opération échouera avec un message d'erreur informatif, et toute modification partielle sera annulée.
Limites
AWS Le PCS met en œuvre une approche de liste d'autorisation pour protéger la sécurité des services et la stabilité opérationnelle. Les paramètres susceptibles de compromettre la sécurité des comptes de service ou d'interférer avec les fonctionnalités des services gérés sont limités. Cependant, nous évaluons en permanence les besoins des clients et pouvons ajouter un support pour des paramètres supplémentaires en fonction des commentaires des clients.