Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Conditions préalables pour l’utilisation du SageMaker HyperPod.
Les sections suivantes vous présentent les prérequis avant de commencer SageMaker HyperPod.
Rubriques
SageMaker HyperPod quotas
Vous pouvez créer des SageMaker HyperPod clusters en fonction des quotas d'utilisation des clusters de votre AWS compte.
Important
Pour en savoir plus sur SageMaker HyperPod les tarifs, consultez SageMaker HyperPod tarification et Amazon SageMaker Pricing
Consultez les SageMaker HyperPod quotas Amazon à l'aide du AWS Management Console
Recherchez les valeurs par défaut et appliquées d'un quota, également appelé limite, pour l'utilisation du cluster, qui est utilisé pour SageMaker HyperPod.
-
Ouvrez la Service Quotas console
. -
Dans le panneau de navigation de gauche, sélectionnez Services AWS.
-
Dans la liste des AWSservices, recherchez et sélectionnez Amazon SageMaker AI.
-
Dans la liste des quotas de service, vous pouvez voir le nom du quota de service, la valeur appliquée (si elle est disponible), le quota AWS par défaut et si la valeur du quota est ajustable.
-
Dans la barre de recherche, saisissez utilisation de clusters. Cela indique les quotas d’utilisation de clusters, les quotas appliqués et les quotas par défaut.
Liste des quotas de services courants pour créer un HyperPod cluster et de ses prérequis
Vous souhaiterez peut-être vérifier si vous avez demandé des augmentations de la limite de quota de service pour les quotas suivants afin de créer un nouveau HyperPod cluster, ainsi que des conditions préalables dans la console SageMaker AI. Accédez à la console Service Quota et recherchez les termes suivants.
| Non | Nom du quota | Terme de recherche | Description |
|---|---|---|---|
| 1 | Nombre maximum d'instances autorisées par SageMaker HyperPod cluster | Sous SageMaker IA, recherchez « Nombre maximum d'instances autorisées par SageMaker HyperPod cluster » | La valeur de quota au niveau de votre compte doit être supérieure au nombre d'instances que vous souhaitez ajouter à votre cluster |
| 2 | Taille maximale du volume EBS en Go pour une instance de SageMaker HyperPod cluster |
Sous SageMaker AI, recherchez « Taille maximale du volume EBS en Go pour une instance de HyperPod cluster » |
La valeur de quota au niveau de votre compte doit être supérieure au volume EBS que vous souhaitez ajouter à votre cluster |
| 3 | Nombre total d'instances autorisées dans les SageMaker HyperPod clusters |
Sous SageMaker IA, recherchez « Nombre total d'instances autorisées dans les SageMaker HyperPod clusters » |
La valeur de quota au niveau de votre compte doit être supérieure au nombre total d'instances que vous souhaitez ajouter dans l'ensemble de vos clusters de votre compte |
| 4 |
Quotas d'instance |
Sous SageMaker IA, recherchez « ml. <instance_type>pour l'utilisation du cluster », par exemple : ml.p5.48xlarge pour l'utilisation du cluster |
La valeur de quota au niveau du compte pour le type d'instance en question (par exemple : ml.p5.48xlarge) doit être supérieure au nombre d'instances à ajouter globalement à tous les clusters de votre compte. |
| 5 |
VPCs par région |
Dans Amazon Virtual Private Cloud (Amazon VPC), recherchez « VPCs par région » | La valeur de quota au niveau du compte doit être suffisante pour créer un nouveau VPC dans le compte lors de la configuration de votre cluster. HyperPod Vérifiez si vous avez déjà épuisé cette limite de quota en vérifiant la console VPC. Cette augmentation de quota n'est nécessaire que si vous créez un nouveau VPC via l'option de configuration de cluster rapide ou personnalisée de la SageMaker HyperPod console. |
| 6 |
Passerelles Internet par région |
Dans Amazon Virtual Private Cloud (Amazon VPC), recherchez « Passerelles Internet par région » |
La valeur de quota au niveau du compte doit être suffisante pour créer une passerelle Internet supplémentaire dans le compte lors de la configuration de votre SageMaker HyperPod cluster. Cette augmentation de quota n'est nécessaire que si vous créez un nouveau VPC via l'option de configuration de cluster rapide ou personnalisée de la SageMaker HyperPod console. |
| 7 | Interfaces réseau par région | Dans Amazon Virtual Private Cloud (Amazon VPC), recherchez « Interfaces réseau par région » |
La valeur de quota au niveau de votre compte doit comporter suffisamment d'interfaces réseau dans le compte lors de la configuration de votre HyperPod cluster. |
| 8 | EC2-Élastique en PVC IPs | Dans Amazon Elastic Compute Cloud (Amazon EC2), recherchez « EC2 -VPC Elastic » IPs | La valeur de quota au niveau du compte doit être suffisante pour créer un nouveau VPC dans le compte lors de la configuration de votre cluster. HyperPod Vérifiez si vous avez déjà dépassé cette limite de quota en vérifiant la console VPC. Cette augmentation de quota n'est nécessaire que si vous créez un nouveau VPC via l'option de configuration de cluster rapide ou personnalisée de la SageMaker HyperPod console. |
Demandez une augmentation du SageMaker HyperPod quota Amazon à l'aide du AWS Management Console
Augmentez vos quotas au niveau du compte ou de la ressource.
-
Pour augmenter les quotas d’instances pour l’utilisation de clusters, sélectionnez les quotas que vous souhaitez augmenter.
-
Si les quotas sont ajustables, vous pouvez demander une augmentation des quotas au niveau du compte ou au niveau des ressources en fonction de la valeur indiquée dans la colonne Ajustabilité.
-
Pour Augmenter la valeur du quota, saisissez la nouvelle valeur. Elle doit être supérieure à la valeur actuelle.
-
Cliquez sur Demander.
-
Pour afficher les demandes en attente ou récemment résolues dans la console, accédez à l’onglet Historique des demandes depuis la page de détails du service ou choisissez Tableau de bord dans le volet de navigation. Pour les demandes en attente, choisissez l’état de la demande pour ouvrir le reçu de la demande. L’état initial d’une demande est Pending (En attente). Une fois que le statut est passé au quota demandé, le numéro de dossier avecAWS Support. Choisissez le numéro de dossier pour ouvrir le billet pour votre demande.
Pour en avoir plus sur la demande d’une augmentation de quota en général, consultez Demande d’augmentation de quota dans le Guide de l’utilisateur AWS Service Quotas.
Configuration SageMaker HyperPod avec un Amazon VPC personnalisé
Pour configurer un SageMaker HyperPod cluster avec un Amazon VPC personnalisé, passez en revue les conditions préalables suivantes.
Note
La configuration de VPC est obligatoire pour l’orchestration d’Amazon EKS. Pour l’orchestration de Slurm, la configuration de VPC est facultative.
-
Validez la capacité de l'Elastic Network Interface (ENI) dans votre environnement Compte AWS avant de créer un SageMaker HyperPod cluster avec un VPC personnalisé. La limite ENI est contrôlée par Amazon EC2 et varie selonRégion AWS. SageMaker HyperPod ne peut pas demander automatiquement des augmentations de quotas.
Pour vérifier votre quota ENI actuel :
-
Ouvrez la Service Quotas console
. -
Dans la section Gérer les quotas, utilisez la liste déroulante AWSServices pour rechercher un VPC.
-
Choisissez de visualiser les quotas de Amazon Virtual Private Cloud (Amazon VPC).
-
Recherchez le quota de service Interfaces réseau par région ou le Code de quota
L-DF5E4CA3.
Si votre limite ENI actuelle est insuffisante pour les besoins de votre SageMaker HyperPod cluster, demandez une augmentation de quota. Garantir au préalable une capacité ENI adéquate permet d’éviter les échecs de déploiement de cluster.
-
-
Lorsque vous utilisez un VPC personnalisé pour connecter un SageMaker HyperPod cluster à des AWS ressources, fournissez le nom, l'ID, le sous-réseau et le groupe de sécurité du VPC lors de la IDs création du cluster. Région AWS IDs
Note
Lorsque votre Amazon VPC et vos sous-réseaux sont pris IPv6 en charge au niveau du cluster ou au niveau
VPCConfigdu groupe d'instances à l'aide de l'OverrideVPCConfigattribut deClusterInstanceGroupSpecification, les communications réseau diffèrent en fonction de la plate-forme d'orchestration du cluster :-
Les clusters orchestrés par Slurm configurent automatiquement les nœuds avec des IPv4 adresses doubles IPv6 et, ainsi, des communications réseau immédiates. IPv6 Aucune configuration supplémentaire n'est requise au-delà des
VPCConfigIPv6 paramètres. -
Dans les clusters orchestrés par EKS, les nœuds reçoivent un adressage à double pile, mais les pods ne peuvent être utilisés que lorsque IPv6 le cluster Amazon EKS est explicitement activé. IPv6 Vous devez créer un nouveau cluster IPv6 Amazon EKS. Les clusters Amazon EKS existants ne peuvent pas être convertis en clusters IPv4 Amazon EKS existants IPv6. Pour plus d'informations sur le déploiement d'un cluster IPv6 Amazon EKS, consultez la section Déploiement Amazon EKS IPv6 du cluster.
Ressources supplémentaires pour la IPv6 configuration :
-
Pour plus d'informations sur l'ajout d'un IPv6 support à votre VPC, consultez IPv6 Support pour VPC.
-
Pour plus d'informations sur la création d'un nouveau VPC IPv6 compatible, Amazon VPCconsultez le Guide de création.
-
Pour effectuer une configuration SageMaker HyperPod avec un Amazon VPC personnalisé, consultez la section Configuration personnalisée d'Amazon VPC pour. SageMaker HyperPod
-
-
Assurez-vous que toutes les ressources sont déployées au même endroit Région AWS que le SageMaker HyperPod cluster. Configurez les règles du groupe de sécurité pour autoriser la communication entre les ressources au sein du VPC. Par exemple, lors de la création d’un VPC dans
us-west-2, provisionnez des sous-réseaux dans une ou plusieurs zones de disponibilité (telles queus-west-2aouus-west-2b) et créez un groupe de sécurité autorisant le trafic intra-groupe.Note
SageMaker HyperPod prend en charge le déploiement de zones de multidisponibilité. Pour de plus amples informations, veuillez consulter Configuration de SageMaker HyperPod clusters sur plusieurs AZs.
-
Établissez la connectivité Amazon Simple Storage Service (Amazon S3) pour les groupes d' SageMaker HyperPodinstances déployés par VPC en créant un point de terminaison VPC. Sans accès à Internet, les groupes d’instances ne peuvent ni stocker ni extraire de scripts de cycle de vie, de données d’entraînement ou d’artefacts de modèle. Nous vous recommandons de créer une politique IAM personnalisée limitant l’accès du VPC privé aux compartiments Amazon S3. Pour plus d’informations, consultez Points de terminaison pour Amazon S3 dans le Guide de l’utilisateur AWS PrivateLink.
-
Pour les HyperPod clusters utilisant des instances compatibles avec Elastic Fabric Adapter (EFA), configurez le groupe de sécurité pour autoriser tout le trafic entrant et sortant à destination et en provenance du groupe de sécurité lui-même. En particulier, évitez d’utiliser
0.0.0.0/0pour les règles sortantes, car cela pourrait entraîner des échecs de surveillance de l’état EFA. Pour plus d'informations sur les directives de préparation des groupes de sécurité EFA, consultez Étape 1 : Préparation d'un groupe de sécurité compatible EFA dans le guide de l'utilisateur Amazon EC2 . -
Prenez bien en compte la taille de bloc CIDR (Classless Inter-Domain Routing) de votre sous-réseau avant de créer des clusters. HyperPod
-
La taille de bloc CIDR du sous-réseau ne peut pas être modifiée après la création. Cela est particulièrement important lorsque vous utilisez de grandes instances accélérées telles que P5. Si la taille de bloc n’est pas suffisante, vous devez recréer vos clusters lors d’une augmentation verticale.
-
Lorsque vous choisissez la taille de bloc CIDR de sous-réseau appropriée, tenez compte des facteurs suivants : vos types d’instances, le nombre d’instances attendu et le nombre d’adresses IP consommées par chaque instance.
-
Pour les clusters orchestrés par Slurm, chaque instance P5 peut créer 32 adresses IP (une par carte réseau). Pour les clusters orchestrés par EKS, chaque instance P5 peut créer 81 adresses IP (50 à partir de la carte principale et une à partir de chacune des 31 cartes restantes). Pour des spécifications détaillées, consultez les spécifications réseau du guide du développeur Amazon EC2 Instance Types.
-
Pour des exemples de CloudFormation modèles qui spécifient la taille de bloc CIDR du sous-réseau, consultez le modèle HyperPod Slurm et le modèle HyperPod
Amazon EKS dans le référentiel. awsome-distributed-training
-
Configuration de SageMaker HyperPod clusters sur plusieurs AZs
Vous pouvez configurer vos SageMaker HyperPod clusters sur plusieurs zones de disponibilité (AZs) pour améliorer la fiabilité et la disponibilité.
Note
Le trafic Elastic Fabric Adapter (EFA) ne peut pas AZs traverser ou. VPCs Cela ne s’applique pas au trafic IP normal provenant du périphérique ENA d’une interface EFA. Pour plus d’informations, consultez Restrictions liées à EFA.
-
Comportement par défaut
HyperPod déploie toutes les instances de cluster dans une seule zone de disponibilité. La configuration de VPC détermine la zone de disponibilité de déploiement :
-
Pour les clusters orchestrés par Slurm, la configuration de VPC est facultative. Lorsqu'aucune configuration VPC n'est fournie, la valeur par HyperPod défaut est un sous-réseau à partir du VPC de la plate-forme.
-
Pour les clusters orchestrés par EKS, la configuration de VPC est requise.
-
Pour les orchestrateurs Slurm et EKS, lorsqu'il
VpcConfigest fourni, HyperPod sélectionne un sous-réseau dans la liste de sous-réseaux fournieVpcConfig. Tous les groupes d’instances héritent de la zone de disponibilité du sous-réseau.
Note
Une fois que vous avez créé un cluster, vous ne pouvez pas modifier ses paramètres
VpcConfig.Pour en savoir plus sur la configuration VPCs des HyperPod clusters, consultez la section précédente,Configuration SageMaker HyperPod avec un Amazon VPC personnalisé.
-
-
Configuration multi-AZ
Vous pouvez configurer votre HyperPod cluster sur plusieurs AZs lors de la création d'un cluster ou lors de l'ajout d'un nouveau groupe d'instances à un cluster existant. Pour configurer les déploiements multi-AZ, vous pouvez remplacer les paramètres VPC par défaut du cluster en spécifiant différents sous-réseaux et groupes de sécurité, potentiellement dans différentes zones de disponibilité, pour des groupes d’instances individuels au sein de votre cluster.
SageMaker HyperPod Les utilisateurs de l'API peuvent utiliser la
OverrideVpcConfigpropriété dans le ClusterInstanceGroupSpecificationlorsqu'ils travaillent avec leCreateClusterouUpdateClusterAPIs.Le champ
OverrideVpcConfig:-
Ne peut pas être modifié une fois le groupe d’instances créé.
-
Est facultatif. S’il n’est pas spécifié, l’élément
VpcConfigau niveau du cluster est utilisé par défaut. -
Pour les clusters orchestrés par Slurm, il ne peut être spécifié que lorsque l’élément
VpcConfigau niveau du cluster est fourni. Si aucun élémentVpcConfign’est spécifié au niveau du cluster,OverrideVpcConfigne peut être utilisé pour aucun groupe d’instances. -
Contient deux champs obligatoires :
-
Subnets- accepte entre 1 et 16 sous-réseaux IDs -
SecurityGroupIds- accepte entre 1 et 5 groupes de sécurité IDs
-
Pour plus d'informations sur la création ou la mise à jour d'un SageMaker HyperPod cluster à l'aide de l'interface utilisateur de la SageMaker HyperPod console ou du AWS CLI :
-
Orchestration de Slurm : voir Fonctionnement de clusters orchestrés par Slurm. HyperPod
-
Orchestration EKS. Reportez-vous à la section Fonctionnement de clusters orchestrés par HyperPod EKS.
-
Note
Lorsque vous exécutez des charges de travail sur plusieurs AZs, sachez que la communication réseau entre elles entraîne AZs une latence supplémentaire. Tenez compte de cet impact lors de la conception d’applications sensibles à la latence.
Configuration AWS Systems Manager et exécution en tant que pour le contrôle d'accès des utilisateurs du cluster
SageMaker HyperPod DLAMIest livré avec AWS Systems Manager
Note
Le fait d'accorder aux utilisateurs l'accès aux nœuds HyperPod du cluster leur permet d'installer et d'utiliser des logiciels gérés par les utilisateurs sur les nœuds. Assurez-vous de respecter le principe des autorisations de moindre privilège pour les utilisateurs.
Activation de l'option Exécuter en tant que dans votre AWS compte
En tant qu'administrateur de AWS compte ou administrateur cloud, vous pouvez gérer l'accès aux SageMaker HyperPod clusters au niveau d'un rôle IAM ou d'un utilisateur en utilisant la fonctionnalité Exécuter en tant que de SSM. Grâce à cette fonctionnalité, vous pouvez démarrer chaque session SSM en utilisant l’utilisateur du système d’exploitation associé au rôle ou à l’utilisateur IAM.
Pour activer Run As dans votre AWS compte, suivez les étapes décrites dans Activer la prise en charge de Run As pour les nœuds gérés sous Linux et macOS. Si vous avez déjà créé des utilisateurs du système d’exploitation dans votre cluster, assurez-vous de les associer à des rôles ou à des utilisateurs IAM en les balisant comme indiqué dans l’option 2 de l’étape 5 sous Pour activer la prise en charge de l’option Exécuter en tant que pour les nœuds gérés sous Linux et macOS.
(Facultatif) Configuration SageMaker HyperPod avec Amazon FSx pour Lustre
Pour commencer à utiliser SageMaker HyperPod et à mapper les chemins de données entre le cluster et votre système de fichiers FSx for Lustre, sélectionnez l'un des chemins Régions AWS pris en charge par SageMaker HyperPod. Après avoir choisi celle Région AWS que vous préférez, vous devez également déterminer la zone de disponibilité (AZ) à utiliser.
Si vous utilisez des nœuds de SageMaker HyperPod calcul situés dans un AZs autre endroit que celui dans AZs lequel votre système de fichiers FSx for Lustre est configuréRégion AWS, il peut y avoir une surcharge de communication et de réseau. Nous vous recommandons d'utiliser le même AZ physique que celui du compte de SageMaker HyperPod service afin d'éviter tout trafic inter-AZ entre les SageMaker HyperPod clusters et votre système de fichiers FSx for Lustre. Vérifiez également que vous l’avez configurée avec votre VPC. Si vous souhaitez utiliser Amazon FSx comme système de fichiers principal pour le stockage, vous devez configurer les SageMaker HyperPod clusters avec votre VPC.