Commencer à SageMaker HyperPod utiliser la console SageMaker AI - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Commencer à SageMaker HyperPod utiliser la console SageMaker AI

Le didacticiel suivant explique comment créer un nouveau SageMaker HyperPod cluster et le configurer avec Slurm via l'interface utilisateur de la console SageMaker AI. À la suite du didacticiel, vous allez créer un HyperPod cluster avec trois nœuds Slurm, my-controller-groupmy-login-group, et. worker-group-1

Créer un cluster

Pour accéder à la page SageMaker HyperPod Clusters et choisir l'orchestration de Slurm, procédez comme suit.

  1. Ouvrez la console Amazon SageMaker AI à l'adresse https://console.aws.amazon.com/sagemaker/.

  2. Choisissez HyperPod Clusters dans le volet de navigation de gauche, puis Gestion des clusters.

  3. Sur la page SageMaker HyperPod Clusters, choisissez Create HyperPod cluster.

  4. Dans le menu déroulant Créer un HyperPod cluster, choisissez Orchestrated by Slurm.

  5. Sur la page de création du cluster Slurm, vous verrez deux options. Choisissez l'option qui répond le mieux à vos besoins.

    1. Configuration rapide -Pour commencer immédiatement avec les paramètres par défaut, choisissez Configuration rapide. Grâce à cette option, l' SageMaker IA créera de nouvelles ressources telles que le VPC, les sous-réseaux, les groupes de sécurité, le compartiment Amazon S3, le rôle IAM et FSx pour Lustre lors de la création de votre cluster.

    2. Configuration personnalisée -Pour intégrer des AWS ressources existantes ou pour avoir des exigences spécifiques en matière de réseau, de sécurité ou de stockage, choisissez Configuration personnalisée. Avec cette option, vous pouvez choisir d'utiliser les ressources existantes ou d'en créer de nouvelles, et vous pouvez personnaliser la configuration qui répond le mieux à vos besoins.

Configuration rapide

Dans la section Configuration rapide, suivez ces étapes pour créer votre HyperPod cluster avec l'orchestration Slurm.

Spécifiez un nom pour le nouveau cluster. Vous ne pouvez pas modifier le nom une fois le cluster créé.

Pour ajouter un groupe d'instances, choisissez Ajouter un groupe. Chaque groupe d'instances peut être configuré différemment, et vous pouvez créer un cluster hétérogène composé de plusieurs groupes d'instances avec différents types d'instances. Pour déployer un cluster, vous devez ajouter au moins un groupe d'instances.

Important

Vous pouvez ajouter un groupe d'instances à la fois. Pour créer plusieurs groupes d'instances, répétez le processus pour chaque groupe d'instances.

Procédez comme suit pour ajouter un groupe d'instances.

  1. Pour Type de groupe d'instances, choisissez un type pour votre groupe d'instances. Pour ce didacticiel, choisissez Controller (head) formy-controller-group, Login for my-login-group et Compute (worker) pourworker-group-1.

  2. Pour Nom, spécifiez le nom du groupe d'instances. Pour ce didacticiel, créez trois groupes d'instances nommés my-controller-groupmy-login-group, etworker-group-1.

  3. Pour la capacité de l'instance, choisissez soit une capacité à la demande, soit un plan de formation pour réserver vos ressources informatiques.

  4. Dans Type d'instance, choisissez l'instance pour le groupe d'instances. Pour ce didacticiel, sélectionnez ml.c5.xlarge ml.m5.4xlarge pour my-controller-groupmy-login-group, pour et ml.trn1.32xlarge pourworker-group-1.

    Assurez-vous de choisir le type d'instance avec des quotas suffisants sur votre compte, ou demandez des quotas supplémentaires en suivant le lien surSageMaker HyperPod quotas.

  5. Pour Quantité d'instances, spécifiez un entier ne dépassant pas le quota d'instance pour l'utilisation du cluster. Pour ce didacticiel, entrez 1 pour les trois groupes.

  6. Pour la zone de disponibilité cible, choisissez la zone de disponibilité dans laquelle vos instances seront approvisionnées. La zone de disponibilité doit correspondre à l'emplacement de votre capacité de calcul accélérée.

  7. Pour Volume de stockage supplémentaire par instance (Go), facultatif, spécifiez un entier compris entre 1 et 16 384 pour définir la taille d'un volume Elastic Block Store (EBS) supplémentaire en gigaoctets (Go). Le volume EBS est attaché à chaque instance du groupe d'instances. Le chemin de montage par défaut pour le volume EBS supplémentaire est/opt/sagemaker. Une fois le cluster créé avec succès, vous pouvez accéder aux instances du cluster (nœuds) par SSH et vérifier si le volume EBS est correctement monté en exécutant la df -h commande. L'attachement d'un volume EBS supplémentaire fournit un stockage stable, hors instance et persistant de manière indépendante, comme décrit dans la section sur les volumes Amazon EBS du guide de l'utilisateur d'Amazon Elastic Block Store.

  8. Choisissez Ajouter un groupe d'instances.

Cette section répertorie tous les paramètres par défaut pour la création de votre cluster, y compris toutes les nouvelles AWS ressources qui seront créées au cours du processus de création du cluster. Passez en revue les paramètres par défaut.

Configuration personnalisée

Dans la section Configuration personnalisée, suivez ces étapes pour créer votre HyperPod cluster avec l'orchestration Slurm.

Spécifiez un nom pour le nouveau cluster. Vous ne pouvez pas modifier le nom une fois le cluster créé.

Pour Restaurer une instance, sélectionnez Automatique - recommandé ou Aucun.

Configurez vos paramètres réseau pour la création du cluster. Ces paramètres ne peuvent pas être modifiés une fois le cluster créé.

  1. Pour le VPC, choisissez votre propre VPC si vous en avez déjà un qui permet à l' SageMaker IA d'accéder à votre VPC. Pour créer un nouveau VPC, suivez les instructions de la section Créer un VPC du guide de l'utilisateur Amazon Virtual Private Cloud. Vous pouvez le laisser sur Aucun pour utiliser le VPC SageMaker AI par défaut.

  2. Pour le bloc d'adresse IPv4 CIDR VPC, entrez l'adresse IP de départ de votre VPC.

  3. Pour les zones de disponibilité, choisissez les zones de disponibilité (AZ) dans lesquelles HyperPod vous créerez des sous-réseaux pour votre cluster. Choisissez AZs celui qui correspond à l'emplacement de votre capacité de calcul accélérée.

  4. Pour les groupes de sécurité, créez un groupe de sécurité ou choisissez jusqu'à cinq groupes de sécurité configurés avec des règles permettant la communication entre les ressources au sein du VPC.

Pour ajouter un groupe d'instances, choisissez Ajouter un groupe. Chaque groupe d'instances peut être configuré différemment, et vous pouvez créer un cluster hétérogène composé de plusieurs groupes d'instances avec différents types d'instances. Pour déployer un cluster, vous devez ajouter au moins un groupe d'instances.

Important

Vous pouvez ajouter un groupe d'instances à la fois. Pour créer plusieurs groupes d'instances, répétez le processus pour chaque groupe d'instances.

Procédez comme suit pour ajouter un groupe d'instances.

  1. Pour Type de groupe d'instances, choisissez un type pour votre groupe d'instances. Pour ce didacticiel, choisissez Controller (head) formy-controller-group, Login for my-login-group et Compute (worker) pourworker-group-1.

  2. Pour Nom, spécifiez le nom du groupe d'instances. Pour ce didacticiel, créez trois groupes d'instances nommés my-controller-groupmy-login-group, etworker-group-1.

  3. Pour la capacité de l'instance, choisissez soit une capacité à la demande, soit un plan de formation pour réserver vos ressources informatiques.

  4. Dans Type d'instance, choisissez l'instance pour le groupe d'instances. Pour ce didacticiel, sélectionnez ml.c5.xlarge ml.m5.4xlarge pour my-controller-groupmy-login-group, pour et ml.trn1.32xlarge pourworker-group-1.

    Assurez-vous de choisir le type d'instance avec des quotas suffisants sur votre compte, ou demandez des quotas supplémentaires en suivant le lien surSageMaker HyperPod quotas.

  5. Pour Quantité d'instances, spécifiez un entier ne dépassant pas le quota d'instance pour l'utilisation du cluster. Pour ce didacticiel, entrez 1 pour les trois groupes.

  6. Pour la zone de disponibilité cible, choisissez la zone de disponibilité dans laquelle vos instances seront approvisionnées. La zone de disponibilité doit correspondre à l'emplacement de votre capacité de calcul accélérée.

  7. Pour Volume de stockage supplémentaire par instance (Go), facultatif, spécifiez un entier compris entre 1 et 16 384 pour définir la taille d'un volume Elastic Block Store (EBS) supplémentaire en gigaoctets (Go). Le volume EBS est attaché à chaque instance du groupe d'instances. Le chemin de montage par défaut pour le volume EBS supplémentaire est/opt/sagemaker. Une fois le cluster créé avec succès, vous pouvez accéder aux instances du cluster (nœuds) par SSH et vérifier si le volume EBS est correctement monté en exécutant la df -h commande. L'attachement d'un volume EBS supplémentaire fournit un stockage stable, hors instance et persistant de manière indépendante, comme décrit dans la section sur les volumes Amazon EBS du guide de l'utilisateur d'Amazon Elastic Block Store.

  8. Choisissez Ajouter un groupe d'instances.

Vous pouvez choisir d'utiliser les scripts de cycle de vie par défaut ou les scripts de cycle de vie personnalisés, qui seront stockés dans votre compartiment Amazon S3. Vous pouvez consulter les scripts de cycle de vie par défaut dans le GitHub référentiel Awesome Distributed Training. Pour en savoir plus sur les scripts de cycle de vie, consultezPersonnalisation des SageMaker HyperPod clusters à l'aide de scripts de cycle de vie.

  1. Pour les scripts de cycle de vie, choisissez d'utiliser des scripts de cycle de vie par défaut ou personnalisés.

  2. Pour le compartiment S3 pour les scripts de cycle de vie, choisissez de créer un nouveau compartiment ou d'utiliser un compartiment existant pour stocker les scripts de cycle de vie.

Choisissez ou créez un rôle IAM qui permet d'exécuter et HyperPod d'accéder aux AWS ressources nécessaires en votre nom.

Configurez le système de fichiers FSx for Lustre à provisionner sur le HyperPod cluster.

  1. Pour Système de fichiers, choisissez un système de fichiers existant FSx pour Lustre, pour créer un nouveau système de fichiers FSx pour Lustre, ou n'en FSx configurez aucun pour Lustre.

  2. Pour Débit par unité de stockage, choisissez le débit qui sera disponible par TiB de stockage provisionné.

  3. Pour Capacité de stockage, entrez une valeur de capacité en To.

  4. Pour le type de compression des données, choisissez LZ4d'activer la compression des données.

  5. Pour la version Lustre, consultez la valeur recommandée pour les nouveaux systèmes de fichiers.

Pour les balises (facultatif), ajoutez des paires clé/valeur au nouveau cluster et gérez le cluster en tant que AWS ressource. Pour en savoir plus, consultez la section Marquage de vos AWS ressources.

Déployer les ressources

Après avoir terminé les configurations du cluster à l'aide de la configuration rapide ou de la configuration personnalisée, choisissez l'option suivante pour démarrer le provisionnement des ressources et la création du cluster.

  • Soumettre : SageMaker AI commencera à approvisionner les ressources de configuration par défaut et à créer le cluster.

  • Télécharger les paramètres du CloudFormation modèle -Vous allez télécharger le fichier JSON des paramètres de configuration et exécuter la AWS CLI commande pour déployer la CloudFormation pile afin de provisionner les ressources de configuration et de créer le cluster. Vous pouvez modifier le fichier JSON de paramètres téléchargé si nécessaire. Si vous choisissez cette option, consultez les instructions supplémentaires dansCréation de SageMaker HyperPod clusters à l'aide AWS CloudFormation de modèles.

Supprimer le cluster et nettoyer les ressources

Une fois que vous avez testé avec succès la création d'un SageMaker HyperPod cluster, celui-ci continue de fonctionner tel quel InService jusqu'à ce que vous le supprimiez. Nous vous recommandons de supprimer tous les clusters créés à l'aide d'instances d' SageMaker IA à la demande lorsqu'ils ne sont pas utilisés afin d'éviter de devoir payer des frais de service continus basés sur la tarification à la demande. Dans ce didacticiel, vous avez créé un cluster composé de deux groupes d'instances. L'un d'eux utilise une instance C5. Veillez donc à supprimer le cluster en suivant les instructions deSupprimer un SageMaker HyperPod cluster.

Toutefois, si vous avez créé un cluster avec une capacité de calcul réservée, l'état des clusters n'a aucune incidence sur la facturation des services.

Pour nettoyer les scripts de cycle de vie du compartiment S3 utilisé pour ce didacticiel, accédez au compartiment S3 que vous avez utilisé lors de la création du cluster et supprimez complètement les fichiers.

Si vous avez testé l'exécution de charges de travail sur le cluster, vérifiez si vous avez téléchargé des données ou si votre tâche a enregistré des artefacts dans différents compartiments S3 ou services de système de fichiers tels qu'Amazon FSx for Lustre et Amazon Elastic File System. Pour éviter d'encourir des frais, supprimez tous les artefacts et données du système de stockage ou de fichiers.