Aidez à améliorer cette page

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Pour contribuer à ce guide de l'utilisateur, cliquez sur le GitHub lien Modifier cette page sur qui se trouve dans le volet droit de chaque page.

Résoudre les problèmes liés aux clusters Amazon EKS locaux sur Outposts AWS

Cette rubrique traite de certaines erreurs courantes que vous pourriez rencontrer lorsque vous utilisez des clusters locaux, ainsi que des solutions. Les clusters locaux sont similaires aux clusters Amazon EKS dans le cloud, mais il existe quelques différences dans la façon dont ils sont gérés par Amazon EKS.

Important

Ne mettez jamais fin à une instance de Kubernetes plan de contrôle du cluster local EKS gérée exécutée sur Outpost, sauf instruction explicite du Support. AWS La fermeture de ces instances présente un risque pour la disponibilité du service de cluster local, notamment la perte du cluster local en cas de fermeture simultanée de plusieurs instances. Les instances du Kubernetes plan de contrôle du cluster local EKS sont identifiées par la balise eks-local:controlplane-name sur la console d' EC2 instance.

Les clusters locaux sont créés via l'API Amazon EKS, mais sont exécutés de manière asynchrone. Cela signifie que les demandes adressées à l'API Amazon EKS aboutissent immédiatement pour les clusters locaux. Toutefois, ces demandes peuvent aboutir, effectuer une interruption immédiate en raison d'erreurs de validation d'entrée, ou échouer et comporter des erreurs de validation descriptives. Ce comportement est similaire à celui de l’API Kubernetes.

Les clusters locaux ne passent pas à l’état FAILED. Amazon EKS tente de rapprocher l'état du cluster de l'état souhaité demandé par l'utilisateur de manière continue. Par conséquent, un cluster local peut rester dans l'état CREATING pendant une longue période, jusqu'à ce que le problème sous-jacent soit résolu.

Les problèmes de cluster locaux peuvent être découverts à l'aide de la commande describe-cluster Amazon EKS AWS CLI. Les problèmes liés aux clusters locaux sont signalés par le champ cluster.health de la réponse de la commande describe-cluster. Le message contenu dans ce champ inclut un code d'erreur, un message descriptif et une ressource associée IDs. Ces informations sont uniquement disponibles via l'API et la AWS CLI Amazon EKS. Dans l'exemple suivant, remplacez my-cluster par le nom de votre cluster local.


aws eks describe-cluster --name my-cluster --query 'cluster.health'

L'exemple qui suit illustre un résultat.


{
    "issues": [
        {
            "code": "ConfigurationConflict",
            "message": "The instance type 'm5.large' is not supported in Outpost 'my-outpost-arn'.",
            "resourceIds": [
                "my-cluster-arn"
            ]
        }
    ]
}

Si le problème est irréparable, vous devrez peut-être supprimer le cluster local et en créer un nouveau. Par exemple, essayez d’allouer un cluster avec un type d’instance qui n’est pas disponible sur votre Outpost. Le tableau suivant répertorie les erreurs courantes liées à l'état.

Scénario d'erreur	Code	Message	ResourceIds
Les sous-réseaux fournis sont introuvables.	`ResourceNotFound`	`The subnet ID subnet-id does not exist`	Tous les sous-réseaux fournis IDs
Les sous-réseaux fournis n’appartiennent pas au même VPC.	`ConfigurationConflict`	`Subnets specified must belong to the same VPC`	Tous les sous-réseaux fournis IDs
Certains sous-réseaux fournis n’appartiennent pas à l’Outpost spécifié.	`ConfigurationConflict`	`Subnet subnet-id expected to be in outpost-arn, but is in other-outpost-arn`	ID de sous-réseau problématique
Certains sous-réseaux fournis n’appartiennent à aucun Outpost.	`ConfigurationConflict`	`Subnet subnet-id is not part of any Outpost`	ID de sous-réseau problématique
Certains sous-réseaux fournis ne disposent pas de suffisamment d’adresses libres pour créer des interfaces réseau Elastic pour les instances du plan de contrôle.	`ResourceLimitExceeded`	`The specified subnet does not have enough free addresses to satisfy the request.`	ID de sous-réseau problématique
Le type d’instance du plan de contrôle spécifié n’est pas pris en charge sur votre Outpost.	`ConfigurationConflict`	`The instance type type is not supported in Outpost outpost-arn`	ARN de cluster
Vous avez mis fin à une EC2 instance Amazon du plan de contrôle ou vous avez `run-instance` réussi, mais l'état observé change de`Terminated`. Cela peut se produire pendant un certain temps après que votre Outpost se soit reconnecté et que des erreurs internes d'Amazon EBS aient entraîné l'échec d'un flux de travail EC2 interne d'Amazon.	`InternalFailure`	`EC2 instance state "Terminated" is unexpected`	ARN de cluster
Vous avez une capacité insuffisante sur votre Outpost. Cela peut également se produire lors de la création d'un cluster si un avant-poste est déconnecté de la AWS région.	`ResourceLimitExceeded`	`There is not enough capacity on the Outpost to launch or start the instance.`	ARN de cluster
Votre compte a dépassé votre quota de groupes de sécurité.	`ResourceLimitExceeded`	Message d'erreur renvoyé par l' EC2 API Amazon	ID du VPC cible
Votre compte a dépassé votre quota d'interface réseau Elastic.	`ResourceLimitExceeded`	Message d'erreur renvoyé par l' EC2 API Amazon	l'ID du sous-réseau cible
Les instances du plan de contrôle n'étaient pas accessibles via AWS Systems Manager. Pour la résolution, consultez Les instances du plan de contrôle ne sont pas accessibles via AWS Systems Manager.	`ClusterUnreachable`	Les instances du plan de contrôle Amazon EKS ne sont pas accessibles via SSM. Vérifiez votre SSM et votre configuration réseau, et consultez la documentation de résolution des problèmes EKS sur les Outposts.	EC2 Instance Amazon IDs
Une erreur s'est produite lors de l'obtention de détails pour un groupe de sécurité géré ou une interface réseau Elastic.	Basé sur le code d'erreur du EC2 client Amazon.	Message d'erreur renvoyé par l' EC2 API Amazon	Tous les groupes de sécurité sont gérés IDs
Une erreur s'est produite lors de l'autorisation ou de la révocation des règles d'entrée du groupe de sécurité. Cela s'applique à la fois aux groupes de sécurité du cluster et du plan de contrôle.	Basé sur le code d'erreur du EC2 client Amazon.	Message d'erreur renvoyé par l' EC2 API Amazon	ID de groupe de sécurité problématique
Une erreur s'est produite lors de la suppression d'une interface réseau Elastic d'une instance du plan de contrôle.	Basé sur le code d'erreur du EC2 client Amazon.	Message d'erreur renvoyé par l' EC2 API Amazon	ID d'interface réseau Elastoc problématique

Le tableau suivant répertorie les erreurs provenant d'autres AWS services présentées dans le champ de santé de la describe-cluster réponse.

Code EC2 d'erreur Amazon	Code de problème de santé du cluster	Description
`AuthFailure`	`AccessDenied`	Cette erreur peut se produire pour différentes raisons. La raison la plus courante est que vous avez accidentellement supprimé une balise que le service utilise pour réduire la portée de la politique de rôle lié à un service du plan de contrôle. Dans ce cas, Amazon EKS ne pourra plus gérer ni surveiller ces AWS ressources.
`UnauthorizedOperation`	`AccessDenied`	Cette erreur peut se produire pour différentes raisons. La raison la plus courante est que vous avez accidentellement supprimé une balise que le service utilise pour réduire la portée de la politique de rôle lié à un service du plan de contrôle. Dans ce cas, Amazon EKS ne pourra plus gérer ni surveiller ces AWS ressources.
`InvalidSubnetID.NotFound`	`ResourceNotFound`	Cette erreur se produit lorsque l’ID de sous-réseau pour les règles d’entrée d’un groupe de sécurité est introuvable.
`InvalidPermission.NotFound`	`ResourceNotFound`	Cette erreur se produit lorsque les autorisations pour les règles d’entrée d’un groupe de sécurité ne sont pas correctes.
`InvalidGroup.NotFound`	`ResourceNotFound`	Cette erreur se produit lorsque le groupe des règles d’entrée d’un groupe de sécurité est introuvable.
`InvalidNetworkInterfaceID.NotFound`	`ResourceNotFound`	Cette erreur se produit lorsque l’ID de l’interface réseau pour les règles d’entrée d’un groupe de sécurité est introuvable.
`InsufficientFreeAddressesInSubnet`	`ResourceLimitExceeded`	Cette erreur se produit lorsque le quota de ressources du sous-réseau est dépassé.
`InsufficientCapacityOnOutpost`	`ResourceLimitExceeded`	Cette erreur se produit lorsque le quota de capacité de l'avant-poste est dépassé.
`NetworkInterfaceLimitExceeded`	`ResourceLimitExceeded`	Cette erreur se produit lorsque le quota de l'interface réseau Elastic est dépassé.
`SecurityGroupLimitExceeded`	`ResourceLimitExceeded`	Cette erreur se produit lorsque le quota du groupe de sécurité est dépassé.
`VcpuLimitExceeded`	`ResourceLimitExceeded`	Cela est observé lors de la création d'une EC2 instance Amazon dans un nouveau compte. L'erreur peut être similaire à ce qui suit : "`You have requested more vCPU capacity than your current vCPU limit of 32 allows for the instance bucket that the specified instance type belongs to. Please visit http://aws.amazon.com/contact-us/ec2-request to request an adjustment to this limit."`
`InvalidParameterValue`	`ConfigurationConflict`	Amazon EC2 renvoie ce code d'erreur si le type d'instance spécifié n'est pas pris en charge sur l'Outpost.
Toutes les autres erreurs	`InternalFailure`	Aucune

Les clusters locaux nécessitent des autorisations et des politiques différentes de celles des clusters Amazon EKS qui sont hébergés dans le cloud. Lorsqu'un cluster ne parvient pas à se créer et génère une InvalidPermissions erreur, vérifiez que le rôle de cluster que vous utilisez est associé à la politique EKSLocal OutpostClusterPolicy gérée par Amazon. Tous les autres appels d'API nécessitent le même ensemble d'autorisations que les clusters Amazon EKS dans le cloud.

Le temps nécessaire à la création d'un cluster local varie en fonction de plusieurs facteurs. Ces facteurs comprennent la configuration de votre réseau, la configuration d’Outpost et la configuration du cluster. En général, un cluster local est créé et passe à l'état ACTIVE dans les 15 à 20 minutes. Si un cluster local reste dans l'état CREATING, vous pouvez appeler describe-cluster pour obtenir des informations sur la cause dans le champ de sortie cluster.health.

Les problèmes les plus courants sont les suivants :

Votre cluster ne peut pas se connecter à l'instance du plan de contrôle depuis la AWS région dans laquelle se trouve Systems Manager. Vous pouvez le vérifier en appelant aws ssm start-session --target instance-id depuis un hôte bastion de la région. Si cette commande ne fonctionne pas, vérifiez si Systems Manager est exécuté sur l’instance du plan de contrôle. Une autre solution consiste à supprimer le cluster, puis à le recréer.
Les instances du plan de contrôle ne peuvent pas être créées en raison des autorisations de clé KMS pour les volumes EBS. Avec les clés KMS gérées par l’utilisateur pour les volumes EBS chiffrés, les instances du plan de contrôle seront interrompues si la clé n’est pas accessible. Si les instances sont mises hors service, passez à une clé KMS AWS gérée ou assurez-vous que votre politique de clé gérée par l'utilisateur accorde les autorisations nécessaires au rôle de cluster.
Il se peut que les instances du plan de contrôle de Systems Manager n'aient pas accès à Internet. Vérifiez si le sous-réseau que vous avez fourni lors de la création du cluster possède une passerelle NAT et un VPC avec une passerelle Internet. Utilisez l'analyseur d'accessibilité VPC pour vérifier si l'instance du plan de contrôle peut atteindre la passerelle Internet. Pour plus d'informations, consultez Getting started with VPC Reachability Analyzer (langue française non garantie).
Le rôle ARN que vous avez fourni ne contient pas de politiques. Vérifiez si la politique AWS gérée : Amazon EKSLocal OutpostClusterPolicy a été supprimée du rôle. Cela peut également se produire si une AWS CloudFormation pile est mal configurée.
Tous les sous-réseaux fournis doivent être associés au même Outpost et pouvoir communiquer entre eux. Lorsque plusieurs sous-réseaux sont spécifiés lors de la création d'un cluster, Amazon EKS tente de répartir les instances du plan de contrôle sur plusieurs sous-réseaux.
Les groupes de sécurité gérés par Amazon EKS sont appliqués sur l'interface réseau Elastic. Cependant, d'autres éléments de configuration tels que les règles de pare-feu NACL peuvent entrer en conflit avec les règles de l'interface réseau Elastic.

La configuration du VPC et du DNS du sous-réseau est mal configurée ou manquante

Consultez l'article Créer un VPC et des sous-réseaux pour les clusters Amazon EKS sur Outposts. AWS

Amazon EKS met automatiquement à jour tous les clusters locaux existants vers les dernières versions de plateforme correspondant à leur version mineure Kubernetes. Pour plus d’informations sur les versions de plateforme, veuillez consulter Découvrez les versions des plateformes Kubernetes et Amazon EKS pour Outposts AWS.

Lors d’un déploiement automatique de la version de plateforme, l’état du cluster passe à UPDATING. Le processus de mise à jour consiste à remplacer toutes les instances du plan de contrôle Kubernetes par de nouvelles instances contenant les derniers correctifs de sécurité et les dernières corrections de bogues publiés pour la version mineure respective de Kubernetes. En général, le processus de mise à jour d’une plateforme de cluster local s’effectue en moins de 30 minutes, après quoi le cluster revient à son état ACTIVE. Si un cluster local reste dans l’état UPDATING pendant une période prolongée, vous pouvez appeler describe-cluster pour obtenir des informations sur la cause dans le champ de sortie cluster.health.

Amazon EKS garantit qu’au moins deux des trois instances du plan de contrôle Kubernetes sont des nœuds de cluster sains et opérationnels afin de maintenir la disponibilité du cluster local et d’éviter toute interruption de service. Si un cluster local est bloqué dans un état UPDATING, c’est généralement parce qu’un problème d’infrastructure ou de configuration empêche de garantir la disponibilité minimale de deux instances dans le cas où le processus se poursuit. Le processus de mise à jour s’arrête donc afin de protéger le service de cluster local contre toute interruption.

Il est important de dépanner un cluster local bloqué dans son état UPDATING et de traiter la cause profonde afin que le processus de mise à jour puisse s’achever et restaurer le cluster local sur ACTIVE avec la haute disponibilité de 3 instances du plan de contrôle Kubernetes.

Ne mettez fin à aucune Kubernetes instance de cluster local EKS gérée sur Outposts, sauf indication explicite du Support AWS . Ceci est particulièrement important pour les clusters locaux bloqués dans un état UPDATING, car il y a une forte probabilité qu’un autre nœud du plan de contrôle ne soit pas entièrement opérationnel et que la fermeture de la mauvaise instance puisse entraîner une interruption du service et un risque de perte de données du cluster local.

Les problèmes les plus courants sont les suivants :

Une ou plusieurs instances du plan de contrôle ne parviennent pas à se connecter à System Manager en raison d’une modification de la configuration réseau depuis la création initiale du cluster local. Vous pouvez le vérifier en appelant aws ssm start-session --target instance-id depuis un hôte bastion de la région. Si cette commande ne fonctionne pas, vérifiez si Systems Manager est exécuté sur l’instance du plan de contrôle.
Les nouvelles instances du plan de contrôle ne peuvent pas être créées en raison des autorisations de clé KMS pour les volumes EBS. Avec les clés KMS gérées par l’utilisateur pour les volumes EBS chiffrés, les instances du plan de contrôle seront interrompues si la clé n’est pas accessible. Si les instances sont mises hors service, passez à une clé KMS AWS gérée ou assurez-vous que votre politique de clé gérée par l'utilisateur accorde les autorisations nécessaires au rôle de cluster.
Les instances du plan de contrôle Systems Manager ont peut-être perdu leur accès à Internet. Vérifiez si le sous-réseau que vous avez fourni lors de la création du cluster possède une passerelle NAT et un VPC avec une passerelle Internet. Utilisez l'analyseur d'accessibilité VPC pour vérifier si l'instance du plan de contrôle peut atteindre la passerelle Internet. Pour plus d'informations, consultez Getting started with VPC Reachability Analyzer (langue française non garantie). Si vos réseaux privés ne disposent pas d’une connexion Internet sortante, assurez-vous que tous les points de terminaison d’un VPC et le point de terminaison de passerelle requis sont toujours présents dans le sous-réseau régional de votre cluster (voir Accès au sous-réseau pour les services AWS).
Le rôle ARN que vous avez fourni ne contient pas de politiques. Vérifiez si la politique AWS gérée : Amazon n'EKSLocalOutpostClusterPolicya pas été supprimée du rôle.
L’une des nouvelles instances du plan de contrôle Kubernetes a peut-être subi une défaillance inattendue lors du démarrage. Veuillez envoyer une demande au centre d’assistance AWS pour obtenir des conseils supplémentaires sur le dépannage et la collecte des journaux dans ce cas exceptionnel.

Problèmes AMI :
- Vous utilisez une AMI incompatible. Seul Amazon Linux 2 optimisé pour Amazon EKS AMIs est pris en charge (amazon-linux-2amazon-linux-2-gpu,,amazon-linux-2-arm64). Si vous essayez de joindre AL2 023 nœuds à EKS LocalClusters on AWS Outposts, les nœuds ne parviennent pas à rejoindre le cluster. Pour plus d'informations, consultez Créer des nœuds Amazon Linux sur AWS Outposts.
- Si vous avez utilisé un AWS CloudFormation modèle pour créer vos nœuds, assurez-vous qu'il n'utilise pas une AMI non prise en charge.
L'authentificateur AWS IAM est manquant ConfigMap : s'il est absent, vous devez le créer. Pour plus d’informations, consultez Appliquer la ConfigMap aws-auth à votre cluster.
Le mauvais groupe de sécurité est utilisé – Assurez-vous d'utiliser eks-cluster-sg-cluster-name-uniqueid pour le groupe de sécurité de vos composants master. Le groupe de sécurité sélectionné est modifié AWS CloudFormation pour autoriser un nouveau groupe de sécurité chaque fois que la pile est utilisée.
Suite à des étapes inattendues liées à un VPC de lien privé – Des données CA incorrectes (--b64-cluster-ca) ou le mauvais point de terminaison de l'API (--apiserver-endpoint) sont transmis.

Lorsqu'un avant-poste est déconnecté de la AWS région à laquelle il est associé, le cluster Kubernetes continuera probablement à fonctionner normalement. Toutefois, si le cluster ne fonctionne pas correctement, suivez les étapes de résolution des problèmes décrites dans Préparer les clusters Amazon EKS locaux sur AWS Outposts pour les déconnexions réseau. Si vous rencontrez d'autres problèmes, contactez le AWS Support. AWS Support peut vous aider à télécharger et à exécuter un outil de collecte de journaux. Ainsi, vous pouvez collecter des journaux à partir de vos instances de plan de contrôle du cluster Kubernetes et les envoyer au AWS support technique pour une enquête plus approfondie.

Lorsque les instances du plan de contrôle Amazon EKS ne sont pas accessibles via AWS Systems Manager (Systems Manager), Amazon EKS affiche le message d'erreur suivant pour votre cluster.


Amazon EKS control plane instances are not reachable through SSM. Please verify your SSM and network configuration, and reference the EKS on Outposts troubleshooting documentation.

Pour résoudre ce problème, assurez-vous que votre VPC et vos sous-réseaux répondent aux exigences de la section Créer un VPC et des sous-réseaux pour les clusters Amazon EKS sur AWS Outposts et que vous avez suivi les étapes décrites dans Configuration du gestionnaire de session dans le guide de l'utilisateur de Systems Manager. AWS

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Considérations relatives à la capacité

Nœuds