Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Configuration du stockage pour les SageMaker HyperPod clusters orchestrés par Amazon EKS
L'administrateur du cluster doit configurer le stockage pour que les utilisateurs de data scientists puissent gérer les données d'entrée et de sortie et stocker les points de contrôle lors de la formation sur les SageMaker HyperPod clusters.
Gestion de grands jeux de données (données d’entrée/sortie)
-
Accès et gestion des données : les scientifiques des données travaillent souvent avec de grands jeux de données nécessaires à l’entraînement des modèles de machine learning. La spécification des paramètres de stockage dans la soumission de la tâche leur permet de définir où se trouvent ces jeux de données (p. ex., dans des compartiments Amazon S3, des volumes persistants dans Kubernetes) et comment y accéder pendant l’exécution de la tâche.
-
Optimisation des performances : l’efficacité de l’accès aux données d’entrée peut avoir un impact significatif sur les performances de la tâche d’entraînement. En optimisant les paramètres de stockage, les data scientists peuvent s'assurer que les données sont lues et écrites efficacement, réduisant ainsi les goulots d' I/O étranglement.
Stockage des points de contrôle
-
Enregistrement de points de contrôle pendant l’entraînement : au cours des tâches d’entraînement de longue durée, il est courant d’enregistrer des points de contrôle, c’est-à-dire des états intermédiaires du modèle. Cela permet aux scientifiques des données de reprendre l’entraînement à partir d’un point précis en cas de défaillance, plutôt que de repartir de zéro.
-
Récupération des données et expérimentation : en spécifiant l’emplacement de stockage des points de contrôle, les scientifiques des données peuvent s’assurer que ces points de contrôle sont stockés de manière sécurisée, potentiellement dans un système de stockage distribué offrant redondance et haute disponibilité. Cela est crucial pour récupérer après une interruption et pour expérimenter différentes stratégies d’entraînement.
Astuce
Pour une expérience pratique et des conseils sur la façon de configurer le stockage pour un SageMaker HyperPod cluster orchestré avec Amazon EKS, consultez les sections suivantes de l' SageMaker HyperPod atelier Amazon EKS Support in