Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Affinage des données pendant la formation avec Amazon SageMaker Smart Sifting
SageMaker Le criblage intelligent est une fonctionnalité d' SageMaker entraînement qui permet d'améliorer l'efficacité de vos ensembles de données d'entraînement et de réduire le temps et le coût totaux de l'entraînement.
Les modèles d'apprentissage profond modernes tels que les grands modèles de langage (LLMs) ou les modèles de transformateurs de vision nécessitent souvent des ensembles de données volumineux pour atteindre une précision acceptable. Par exemple, la LLMs convergence nécessite souvent des milliards de jetons ou des pétaoctets de données. La taille croissante des ensembles de données d'entraînement, ainsi que la taille des state-of-the-art modèles, peuvent augmenter le temps de calcul et le coût de la formation des modèles.
Invariablement, les exemples d’un jeu de données ne contribuent pas de la même manière au processus d’apprentissage lors de l’entraînement des modèles. Une part importante des ressources informatiques allouées pendant l’entraînement peut être consacrée au traitement d’exemples simples qui ne contribuent pas de manière significative à l’exactitude globale d’un modèle. Idéalement, les jeux de données d’entraînement n’incluraient que des exemples qui améliorent réellement la convergence des modèles. Le filtrage des données moins utiles peut réduire le temps d’entraînement et les coûts de calcul. Cependant, l’identification de données moins utiles peut s’avérer difficile et risquée. Il est difficile d’identifier les exemples les moins informatifs avant l’entraînement et l’exactitude du modèle peut être affectée si les mauvais exemples ou un trop grand nombre d’exemples sont exclus.
Le tri intelligent des données avec Amazon SageMaker AI peut contribuer à réduire le temps et les coûts de formation en améliorant l'efficacité des données. L'algorithme de criblage SageMaker intelligent évalue la valeur de perte de chaque donnée pendant la phase de chargement des données d'une tâche de formation et exclut les échantillons moins informatifs pour le modèle. En utilisant des données raffinées pour l’entraînement, le temps et le coût totaux de l’entraînement de votre modèle sont réduits en éliminant les transmissions avant et arrière inutiles sur des données qui ne s’améliorent pas. Par conséquent, l’impact sur l’exactitude du modèle est minime ou nul.
SageMaker le criblage intelligent est disponible via SageMaker Training Deep Learning Containers (DLCs) et prend en charge les PyTorch charges de travail via le. PyTorch DataLoader Quelques lignes de code seulement sont nécessaires pour implémenter le tri SageMaker intelligent et vous n'avez pas besoin de modifier vos flux de formation ou de traitement des données existants.