Quand utiliser Amazon EFS Utiliser le mode fichier pour les petits ensembles de jeu de données Sérialisation de nombreux petits fichiers Quand utiliser le mode Fichier rapide Quand utiliser Amazon FSx pour Lustre

Choix d’un mode de saisie et d’une unité de stockage

La meilleure source de données pour votre travail de formation dépend des caractéristiques de la charge de travail telles que la taille de l'ensemble du jeu de données, le format de fichier, la taille moyenne des fichiers, la durée de l’entraînement, un modèle de lecture séquentiel ou aléatoire du chargeur de données et la vitesse à laquelle votre modèle peut consommer les données d'entraînement. Les bonnes pratiques suivantes fournissent des directives pour commencer à utiliser le mode d’entrée et le stockage de données les plus adaptés à votre cas d’utilisation.

Organigramme résumant les bonnes pratiques pour choisir le meilleur stockage comme source de données et mode de fichier d’entrée.

Quand utiliser Amazon EFS

Si votre jeu de données est stocké dans Amazon Elastic File System, vous disposez peut-être d'une application de prétraitement ou d'annotation qui utilise Amazon EFS pour le stockage. Vous pouvez exécuter une tâche de formation configurée avec un canal de données qui pointe vers le système de fichiers Amazon EFS. Pour plus d'informations, consultez Accélérer la formation sur Amazon SageMaker AI à l'aide des systèmes de fichiers Amazon FSx for Lustre et Amazon EFS. Si vous ne parvenez pas à obtenir de meilleures performances, vérifiez vos options d'optimisation en suivant le Guide de performance Amazon Elastic File System ou envisagez d'utiliser différents modes d'entrée ou de stockage de données.

Utiliser le mode fichier pour les petits ensembles de jeu de données

Si le jeu de données est stocké dans Amazon Simple Storage Service et que son volume global est relativement faible (par exemple, inférieur à 50 à 100 Go), essayez d'utiliser le mode Fichier. La surcharge liée au téléchargement d'un jeu de données de 50 Go peut varier en fonction du nombre total de fichiers. Par exemple, cela prend environ 5 minutes si un jeu de données est fragmenté en partitions de 100 Mo. L'acceptation de cette surcharge de démarrage dépend principalement de la durée globale de votre travail d'entraînement, car une phase d'entraînement plus longue signifie une phase de téléchargement proportionnellement plus petite.

Sérialisation de nombreux petits fichiers

Si la taille de votre jeu de données est petite (moins de 50 à 100 Go), mais qu'il est composé de nombreux petits fichiers (moins de 50 Mo par fichier), la surcharge de téléchargement du mode Fichier augmente, car chaque fichier doit être téléchargé individuellement depuis Amazon Simple Storage Service vers le volume de l'instance d'entraînement. Pour réduire cette surcharge et le temps de transmission des données en général, envisagez de sérialiser des groupes de fichiers aussi petits dans des conteneurs de fichiers moins volumineux (150 Mo par fichier, par exemple) en utilisant des formats de fichier tels que TFRecordfor TensorFlow PyTorch, WebDatasetfor et Recordio for. MXNet

Quand utiliser le mode Fichier rapide

Pour les ensembles de données volumineux contenant des fichiers plus volumineux (plus de 50 Mo par fichier), la première option consiste à essayer le mode fichier rapide, qui est plus simple à utiliser que FSx pour Lustre car il ne nécessite pas de créer un système de fichiers ou de se connecter à un VPC. Le mode Fichier rapide est idéal pour les conteneurs de fichiers volumineux (plus de 150 Mo) et peut également fonctionner avec des fichiers de plus de 50 Mo. Comme le mode Fichier rapide fournit une interface POSIX, il prend en charge les lectures aléatoires (lecture de plages d'octets non séquentielles). Cependant, ce n'est pas le cas d'utilisation idéal et votre débit peut être inférieur à celui des lectures séquentielles. Toutefois, si vous disposez d'un modèle ML relativement volumineux et gourmand en ressources informatiques, le mode Fichier rapide peut toujours saturer la bande passante effective du pipeline d'entraînement et ne pas entraîner de goulot d'étranglement d'E/S. Vous aurez besoin d'effectuer des tests pour voir. Pour passer du mode fichier au mode fichier rapide (et vice versa), il suffit d'ajouter (ou de supprimer) le input_mode='FastFile' paramètre lors de la définition de votre canal d'entrée à l'aide du SDK SageMaker Python :


sagemaker.inputs.TrainingInput(S3_INPUT_FOLDER,  input_mode = 'FastFile')

Quand utiliser Amazon FSx pour Lustre

Si votre jeu de données est trop volumineux pour le mode fichier, contient de nombreux petits fichiers difficiles à sérialiser ou utilise un modèle d'accès en lecture aléatoire, FSx Lustre est une bonne option à envisager. Son système de fichiers s'adapte à des centaines de gigaoctets par seconde (Go/s) de débit et à des millions d'IOPS, ce qui est idéal lorsque vous avez de nombreux petits fichiers. Notez toutefois que le problème de démarrage à froid peut être dû au chargement différé et à la surcharge liée à la configuration et à l'initialisation du système de fichiers FSx for Lustre.

Astuce

Pour en savoir plus, consultez Choisir la meilleure source de données pour votre SageMaker formation Amazon. Ce blog sur l'apprentissage AWS automatique aborde également les études de cas et les tests de performance des sources de données et des modes de saisie.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Configurer le canal de saisie des données pour utiliser Amazon FSx for Lustre

Utiliser le contrôle d’accès par attributs (ABAC) pour l’entraînement multilocataire