

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Résolution des problèmes dans les clusters avec AWS Batch intégration
<a name="troubleshooting-v3-batch"></a>

Cette section fournit des conseils de dépannage possibles pour les clusters intégrant un AWS Batch planificateur, en particulier en ce qui concerne les problèmes de nœud principal, les problèmes de calcul, les échecs de tâches et les erreurs de délai d'attente.

**Topics**
+ [

## Problèmes liés au nœud principal
](#troubleshooting-v3-batch-head-node)
+ [

## Problèmes de calcul
](#troubleshooting-v3-batch-compute-nodes)
+ [

## Échecs des tâches
](#troubleshooting-v3-batch-job-fail)
+ [

## Erreur d'expiration du délai de connexion en cas d'URL du point de terminaison
](#troubleshooting-v3-batch-connect-timeout)

## Problèmes liés au nœud principal
<a name="troubleshooting-v3-batch-head-node"></a>

Vous pouvez résoudre les problèmes de configuration du nœud principal de la même manière qu'un Slurm cluster (sauf pour les journaux Slurm spécifiques). Pour de plus amples informations sur ces problèmes, veuillez consulter [Nœud principal](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-node-init.head-node).

## Problèmes de calcul
<a name="troubleshooting-v3-batch-compute-nodes"></a>

AWS Batch gère les aspects de dimensionnement et de calcul de vos services. Si vous rencontrez des problèmes liés au calcul, consultez la documentation de AWS Batch [dépannage](https://docs.aws.amazon.com/batch/latest/userguide/troubleshooting.html) pour obtenir de l'aide.

## Échecs des tâches
<a name="troubleshooting-v3-batch-job-fail"></a>

Si une tâche échoue, vous pouvez exécuter la [`awsbout`](awsbatchcli.awsbout-v3.md) commande pour récupérer le résultat de la tâche. Vous pouvez également exécuter la [`awsbstat`](awsbatchcli.awsbstat-v3.md) commande pour obtenir un lien vers les journaux des tâches stockés par Amazon CloudWatch.

## Erreur d'expiration du délai de connexion en cas d'URL du point de terminaison
<a name="troubleshooting-v3-batch-connect-timeout"></a>

Si les tâches parallèles sur plusieurs nœuds échouent avec une erreur : `Connect timeout on endpoint URL`
+ Dans le journal `awsbout` de sortie, vérifiez que la tâche est parallèle à plusieurs nœuds par rapport à la sortie : `Detected 3/3 compute nodes. Waiting for all compute nodes to start.`
+ Vérifiez si le sous-réseau des nœuds de calcul est public.

Les tâches parallèles à nœuds multiples ne prennent pas en charge l'utilisation de sous-réseaux publics lors de leur utilisation AWS Batch dans. AWS ParallelCluster Utilisez un sous-réseau privé pour vos nœuds de calcul et vos tâches. Pour plus d'informations, consultez la section [Considérations relatives à l'environnement informatique](https://docs.aws.amazon.com/batch/latest/userguide/multi-node-parallel-jobs.html#mnp-ce) dans le *Guide de AWS Batch l'utilisateur*. Pour configurer un sous-réseau privé pour vos nœuds de calcul, consultez[AWS ParallelCluster avec AWS Batch planificateur](network-configuration-v3-batch.md).