Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Réservez des plans de formation pour vos postes ou HyperPod clusters de formation
Les plans de SageMaker formation Amazon sont une fonctionnalité qui vous permet de réserver et d'optimiser l'utilisation de la capacité du GPU pour les charges de travail de formation de modèles d'IA à grande échelle. Cette fonctionnalité donne accès à des types d'instances très recherchés qui couvrent une gamme d'options informatiques accélérées par GPU, notamment les dernières technologies GPU NVIDIA et les puces Trainium. AWS Grâce aux plans de SageMaker formation, vous pouvez garantir un accès prévisible à ces ressources informatiques très demandées et très performantes dans les délais et les budgets que vous avez définis, sans avoir à gérer l'infrastructure sous-jacente. Cette flexibilité est particulièrement utile pour les entreprises confrontées aux défis liés à l'acquisition et à la planification de ces instances de calcul surabonnées pour leurs charges de travail critiques liées à l'IA.
Quels sont les plans SageMaker de formation
SageMaker les plans de formation vous permettent de réserver une capacité de calcul adaptée à vos besoins en ressources cibles, tels que les postes de SageMaker formation ou les SageMaker HyperPod clusters. Le service gère automatiquement la réservation, le provisionnement de ressources informatiques accélérées, la configuration de l'infrastructure, l'exécution de la charge de travail et le rétablissement en cas de défaillance de l'infrastructure.
SageMaker les plans de formation se composent d'un ou de plusieurs blocs de capacités réservées, chacun étant défini par les paramètres suivants :
-
Type d'instance spécifique
-
Nombre d'instances
-
Zone de disponibilité
-
Durée
-
Heures de début et de fin
Note
-
Les plans de formation sont spécifiques à leur ressource cible ( SageMaker Training Job ou SageMaker HyperPod) et ne peuvent pas être échangés.
-
Plusieurs blocs de capacité réservée dans un même plan de formation peuvent être discontinus. Cela signifie qu'il peut y avoir des écarts entre les blocs de capacité réservée.
Avantages des plans SageMaker de formation
SageMaker les plans de formation offrent les avantages suivants :
-
Accès prévisible : réservez la capacité du GPU pour vos charges de travail d'apprentissage automatique dans des délais spécifiés.
-
Gestion des coûts : Planifiez et budgétisez à l'avance les besoins de formation à grande échelle.
-
Gestion automatisée des ressources : les plans de SageMaker formation gèrent le provisionnement et la gestion de l'infrastructure.
-
Flexibilité : créez des plans de formation pour diverses ressources, y compris les emplois de SageMaker formation et les SageMaker HyperPod clusters.
-
Tolérance aux pannes : profitez de la restauration automatique en cas de défaillance de l'infrastructure et de la migration de la charge de travail entre les zones de disponibilité pour les tâches de formation à l' SageMaker IA.
SageMaker plans de formation, réservation à l'avance et horaires de début flexibles
SageMaker les plans de formation vous permettent de réserver des capacités de calcul à l'avance, avec des heures de début et des durées flexibles.
-
Réservation à l'avance : Vous pouvez réserver un plan de formation jusqu'à 8 semaines (56 jours) avant la date de début.
-
Délai minimum : les offres de plans de SageMaker formation peuvent être disponibles pour commencer dans les 30 minutes suivant la réservation, sous réserve de disponibilité.
Note
Vous pouvez rechercher et acheter un plan qui sera accessible dans les 30 minutes. Pour garantir une activation rapide, la transaction de paiement doit être terminée avec succès au moins 5 minutes avant l'heure de début souhaitée. Par exemple, si vous souhaitez qu'un plan commence à 14 h 00, vous pouvez effectuer une recherche de dernière minute jusqu'à 13 h 30 et terminer votre achat avant 13 h 55 pour garantir que le plan sera prêt à 14 h 00.
-
Durée de réservation et quantité d'instances : les plans de SageMaker formation vous permettent de réserver des instances avec des options de durée et de quantité spécifiques. Pour les types d'instances disponibles dans une option donnée Région AWS, de durée et de quantité, consultezTypes d'instances pris Régions AWS en charge et tarifs.
-
Heure de fin : Les plans d'entraînement se terminent toujours à 11 h 30 UTC le dernier jour de la réservation.
-
Fin du plan de formation : si vous utilisez des tâches de formation comme ressource cible et qu'il reste 30 minutes dans une capacité réservée, les plans de SageMaker formation initient le processus consistant à mettre fin à toutes les instances en cours d'exécution au sein de ce bloc jusqu'à ce que la capacité réservée suivante devienne active. Vous conservez un accès complet à votre plan d'entraînement jusqu'à 30 minutes avant l'heure de fin du dernier bloc de capacité réservée.
Si votre ressource cible est un SageMaker HyperPod cluster, ce délai est d'une heure.
SageMaker plans de formation, flux de travail utilisateur
SageMaker les plans de formation comportent les étapes suivantes :
Étapes d'administration :
-
Recherche et révision : trouvez les offres de plans disponibles qui répondent à vos besoins en matière de calcul, telles que le type d'instance, le nombre, l'heure de début et la durée.
-
Créez un plan : réservez un plan de formation qui répond à vos besoins en utilisant l'identifiant de l'offre de plan que vous avez choisie.
-
Paiement et planification : une fois le paiement initial réussi, le statut du plan devient
Scheduled
.
Étapes à suivre pour les utilisateurs du plan et les ingénieurs du ML :
-
Allocation de ressources : utilisez votre plan pour mettre en file d'attente les tâches de formation à l' SageMaker IA ou pour les allouer à un groupe d'instances de SageMaker HyperPod cluster.
-
Activation : Lorsque la date de début du plan arrive, elle devient
Active
. Sur la base de la capacité réservée disponible, les plans de SageMaker formation lancent automatiquement des tâches de formation ou fournissent des groupes d'instances.
Note
L'état du plan de formation passe du stade Scheduled
au Active
début d'une période de capacité réservée, puis à nouveau au Scheduled
moment où l'on attend le début de la période de capacité réservée suivante.
Les diagrammes suivants fournissent un aperçu complet de la manière dont les plans de SageMaker formation interagissent avec les différentstarget resources, illustrant le cycle de vie d'un plan et son rôle dans l'allocation des ressources pour les tâches de SageMaker formation et les SageMaker HyperPod clusters.
-
Plans de SageMaker formation pour Training Job : Le premier diagramme illustre le end-to-end flux de travail de l'interaction entre un plan de formation et un SageMaker Training Job.
-
Plans de formation pour les SageMaker HyperPod clusters : le deuxième diagramme illustre le end-to-end flux de travail de l'interaction entre un plan de formation et un groupe d' SageMaker HyperPod instances.
Types d'instances pris Régions AWS en charge et tarifs
Les plans de formation prennent en charge les réservations pour les types d'instances hautes performances spécifiques suivants, chacun étant disponible dans certaines catégories Régions AWS :
-
ml.p4d.24xlarge
-
ml.p 5,48 x large
-
ml.p5e.48 x large
-
ml.p5en.48xlarge
-
ml.trn 1,32 x large
-
ml.trn 2,48 x large
-
ml.p6-b200.48 x large
-
ml.c6i-32xlargesc
UltraServers
-
ml.p6e-gb200.36 x large
-
ml.p6e-gb200.72 x large
Note
La disponibilité des types d'instances peut changer au fil du temps. Pour obtenir le plus up-to-date d'informations sur les types d'instances disponibles par région, ainsi que sur leurs prix respectifs, consultez la section SageMaker Tarification
La disponibilité dans plusieurs régions permet de choisir l'emplacement le plus adapté aux charges de travail, en tenant compte de facteurs tels que les exigences en matière de résidence des données et la proximité d'autres AWS services.
Important
-
Vous pouvez utiliser des plans de SageMaker formation pour réserver des instances avec les options de durée de réservation et de quantité d'instances suivantes.
-
Les durées de réservation sont disponibles par tranches d'un jour, de 1 à 182 jours.
-
Les options de quantité d'instances de réservation sont 1, 2, 4, 8, 16, 32 ou 64 instances.
-
-
Assurez-vous que vos tâches de formation ou vos quotas de HyperPod service autorisent un nombre maximum d'instances par type d'instance supérieur au nombre d'instances spécifié dans votre plan. Pour consulter vos quotas actuels ou demander une augmentation de quota, consultezAfficher les quotas des plans de SageMaker formation à l'aide de la console AWS de gestion.
UltraServers en SageMaker IA
UltraServers en SageMaker IA proposent un ensemble d'instances interconnectées via un domaine réseau à haut débit. Par exemple, le GB2 P6e-00 UltraServer connecte jusqu'à 18 p6e-gb200.36xlarge
instances sous un même NVLink domaine NVIDIA. Avec 4 NVIDIA Blackwell GPUs par instance, chaque GB2 P6e-00 UltraServer en supporte 72 GPUs, ce qui vous permet d'exécuter vos plus grandes charges de travail d'IA avec des performances élevées en matière d'IA. SageMaker
Lorsque vous utilisez l' UltraServers SageMaker IA, vous obtenez des performances combinées à l'infrastructure gérée de l' SageMaker IA, aux fonctionnalités intégrées de résilience aux pannes, aux capacités de surveillance intégrées et à l'intégration native avec d'autres SageMaker IA et AWS services. Cette intégration vous permet de vous concentrer sur le développement et le déploiement de modèles, tandis que l' SageMaker IA prend en charge le gros du travail indifférencié lié à la gestion de l'infrastructure d'IA.
Note
UltraServers sont disponibles uniquement dans la zone locale de Dallas (us-east-1-dfw-2a), qui est une extension de la région USA Est (Virginie du Nord). Pour plus d'informations, consultez Getting started with Zone locale AWS s
Considérations
Tenez compte des points suivants lorsque vous utilisez UltraServers l' SageMaker IA :
-
Vous pouvez l'utiliser à UltraServers la fois pour des tâches SageMaker HyperPodde SageMaker formation et de formation.
-
Vous ne pouvez acheter qu' UltraServers en unités complètes. Pour plus d'informations sur les instances et les tarifs, consultez les plans de formation SageMaker HyperPod flexibles d'Amazon dans la section Tarification d'Amazon SageMaker AI
. -
Si vous utilisez UltraServers avec HyperPod, ajoute HyperPod automatiquement des étiquettes topologiques à vos ressources pour vous aider à allouer les ressources. Pour plus d'informations, consultez Utilisation de la planification basée sur la topologie sur Amazon. SageMaker HyperPod
-
SageMaker L'intelligence artificielle UltraServers offre diverses fonctionnalités qui améliorent la résilience de vos charges de travail, notamment les contrôles préventifs et la détection et l'atténuation automatiques des pannes. En fonction du problème, l' SageMaker IA peut exécuter des actions pour récupérer vos charges de travail, telles que le redémarrage des instances, le remplacement des instances défaillantes par des pièces de rechange et le remplacement des instances défaillantes. UltraServers
-
Pour une résilience accrue, vous pouvez configurer des instances au sein d'un et UltraServer pour les utiliser comme pièces de rechange. Le fait de conserver une instance de rechange UltraServer permet à l' SageMaker IA de répondre rapidement à une panne d'instance tout en minimisant l'impact sur vos tâches. Nous vous recommandons de conserver une instance de rechange par instance UltraServer. Il n'est pas nécessaire de réserver des instances de rechange, mais cela peut entraver les options de support et ralentir la reprise en cas de panne. Vous achetez UltraServers par lots, de sorte que le nombre de pièces de rechange que vous réservez n'a aucune incidence sur les prix.
-
Pour voir le statut et les instances d'un UltraServer, utilisez le fonctionnement de l' ListTrainingPlansAPI ou la AWS console pour consulter les plans de formation. À l'aide de ces outils, vous pouvez voir le nombre total d'instances disponibles, les instances actuellement utilisées, les instances défectueuses, le nombre de pièces de rechange configurées et d'autres informations. Les états de santé possibles sont
ok
impaired
, et.insufficient-data
SageMaker plans de formation, comportement de recherche
Lorsque vous recherchez une offre de plan de formation, les plans de SageMaker formation utilisent l'approche suivante pour optimiser la disponibilité des ressources et la flexibilité pour les utilisateurs, même lorsque la demande est forte et que les blocs de capacité réservée sont rares :
-
Recherche continue initiale : les plans de SageMaker formation tentent d'abord de trouver un seul bloc continu de capacité réservée correspondant à la durée spécifiée entre les dates de début et de fin, tout en répondant à tous les autres critères spécifiés, notamment la ressource cible, le type d'instance demandé et le nombre d'instances.
-
Recherche en deux blocs : les plans de SageMaker formation ne renvoient pas de résultat « aucune capacité » si un seul bloc continu de capacité réservée répondant à tous les critères n'est pas disponible. Au lieu de cela, il tente automatiquement de répondre à la demande en utilisant deux blocs de capacité réservée distincts, en divisant la durée totale sur deux segments temporels.
Cette approche à deux blocs offre une plus grande flexibilité dans l'allocation des ressources, ce qui permet de sécuriser potentiellement les instances les plus demandées qui ne seraient pas disponibles autrement.
Note
SageMaker les plans de formation proposent jusqu'à trois offres d'un ou deux segments. Par exemple, pour un plan d'une durée de 48 heures, les plans de SageMaker formation peuvent proposer un plan comportant deux blocs de 24 heures, un bloc continu de 48 heures et deux blocs de durée inégale.
Considérations
Important
-
Les plans de formation ne peuvent pas être modifiés une fois achetés.
-
Les plans de formation ne peuvent pas être partagés entre AWS comptes ou au sein de votre AWS organisation.
-
Lors de la recherche d'offres de plans de SageMaker formation, Training Plans adapte sa stratégie de recherche en fonction des éléments target resources suivants :
Pour les SageMaker HyperPod clusters :
-
Les offres sont limitées à une seule zone de disponibilité (AZ).
-
Cela garantit des performances réseau et une localisation des données cohérentes au sein du cluster.
Pour les postes de SageMaker formation :
-
Les offres peuvent couvrir plusieurs zones de disponibilité.
-
Cela est particulièrement pertinent lorsque l'offre du plan contient plusieurs capacités réservées discontinues.
-
Par exemple, un plan peut inclure de la capacité en AZ-A pour un bloc de capacité réservée et en AZ-B pour un autre. SageMaker les plans de formation peuvent déplacer automatiquement les charges de travail entre les zones de disponibilité (AZs) en fonction de la disponibilité des ressources.
Cette approche multi-AZ pour les postes de formation offre une plus grande flexibilité dans l'allocation des ressources, augmentant ainsi les chances de trouver la capacité adaptée à votre charge de travail. Cependant, vous devez savoir que vos offres d'emploi peuvent être présentées différemment AZs au cours des différentes périodes de votre période de réservation.
-
-
Lorsqu'une offre à deux blocs est présentée, les utilisateurs doivent examiner attentivement si cette allocation fractionnée répond à leurs exigences en matière de charge de travail. Cela peut nécessiter un ajustement de la planification des tâches ou de la répartition de la charge de travail pour tenir compte de la nature non continue de la réservation.