Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Choix d’un mode de saisie et d’une unité de stockage
La meilleure source de données pour votre travail de formation dépend des caractéristiques de la charge de travail telles que la taille de l'ensemble du jeu de données, le format de fichier, la taille moyenne des fichiers, la durée de l’entraînement, un modèle de lecture séquentiel ou aléatoire du chargeur de données et la vitesse à laquelle votre modèle peut consommer les données d'entraînement. Les bonnes pratiques suivantes fournissent des directives pour commencer à utiliser le mode d’entrée et le stockage de données les plus adaptés à votre cas d’utilisation.
Quand utiliser Amazon EFS
Si votre jeu de données est stocké dans Amazon Elastic File System, vous disposez peut-être d'une application de prétraitement ou d'annotation qui utilise Amazon EFS pour le stockage. Vous pouvez exécuter une tâche de formation configurée avec un canal de données qui pointe vers le système de fichiers Amazon EFS. Pour plus d'informations, consultez Accélérer la formation sur Amazon SageMaker AI à l'aide des systèmes de fichiers Amazon FSx for Lustre et Amazon EFS
Utiliser le mode fichier pour les petits ensembles de jeu de données
Si le jeu de données est stocké dans Amazon Simple Storage Service et que son volume global est relativement faible (par exemple, inférieur à 50 à 100 Go), essayez d'utiliser le mode Fichier. La surcharge liée au téléchargement d'un jeu de données de 50 Go peut varier en fonction du nombre total de fichiers. Par exemple, cela prend environ 5 minutes si un jeu de données est fragmenté en partitions de 100 Mo. L'acceptation de cette surcharge de démarrage dépend principalement de la durée globale de votre travail d'entraînement, car une phase d'entraînement plus longue signifie une phase de téléchargement proportionnellement plus petite.
Sérialisation de nombreux petits fichiers
Si la taille de votre jeu de données est petite (moins de 50 à 100 Go), mais qu'il est composé de nombreux petits fichiers (moins de 50 Mo par fichier), la surcharge de téléchargement du mode Fichier augmente, car chaque fichier doit être téléchargé individuellement depuis Amazon Simple Storage Service vers le volume de l'instance d'entraînement. Pour réduire cette surcharge et le temps de transmission des données en général, envisagez de sérialiser des groupes de fichiers aussi petits dans des conteneurs de fichiers moins volumineux (150 Mo par fichier, par exemple) en utilisant des formats de fichier tels que TFRecord
Quand utiliser le mode Fichier rapide
Pour les ensembles de données volumineux contenant des fichiers plus volumineux (plus de 50 Mo par fichier), la première option consiste à essayer le mode fichier rapide, qui est plus simple à utiliser que FSx pour Lustre car il ne nécessite pas de créer un système de fichiers ou de se connecter à un VPC. Le mode Fichier rapide est idéal pour les conteneurs de fichiers volumineux (plus de 150 Mo) et peut également fonctionner avec des fichiers de plus de 50 Mo. Comme le mode Fichier rapide fournit une interface POSIX, il prend en charge les lectures aléatoires (lecture de plages d'octets non séquentielles). Cependant, ce n'est pas le cas d'utilisation idéal et votre débit peut être inférieur à celui des lectures séquentielles. Toutefois, si vous disposez d'un modèle ML relativement volumineux et gourmand en ressources informatiques, le mode Fichier rapide peut toujours saturer la bande passante effective du pipeline d'entraînement et ne pas entraîner de goulot d'étranglement d'E/S. Vous aurez besoin d'effectuer des tests pour voir. Pour passer du mode fichier au mode fichier rapide (et vice versa), il suffit d'ajouter (ou de supprimer) le input_mode='FastFile' paramètre lors de la définition de votre canal d'entrée à l'aide du SDK SageMaker Python :
sagemaker.inputs.TrainingInput(S3_INPUT_FOLDER, input_mode = 'FastFile')
Quand utiliser Amazon FSx pour Lustre
Si votre jeu de données est trop volumineux pour le mode fichier, contient de nombreux petits fichiers que vous ne pouvez pas sérialiser facilement ou utilise un modèle d'accès en lecture aléatoire, FSx Lustre est une bonne option à envisager. Son système de fichiers s'adapte à des centaines de gigaoctets par seconde (Go/s) de débit et à des millions d'IOPS, ce qui est idéal lorsque vous avez de nombreux petits fichiers. Cependant, notez qu'il peut y avoir un problème de démarrage à froid en raison du chargement différé et de la surcharge liée à la configuration et à l'initialisation du système de fichiers FSx for Lustre.
Astuce
Pour en savoir plus, consultez Choisir la meilleure source de données pour votre SageMaker formation Amazon