Affinage des données pendant la formation avec Amazon SageMaker Smart Sifting

SageMaker Le criblage intelligent est une fonctionnalité d' SageMaker entraînement qui permet d'améliorer l'efficacité de vos ensembles de données d'entraînement et de réduire le temps et le coût totaux de l'entraînement.

Les modèles de deep learning modernes tels que les grands modèles de langage (LLM) ou les modèles de transformeur de vision nécessitent souvent des jeux de données volumineux pour atteindre une précision acceptable. Par exemple, les LLM ont souvent besoin de milliards de jetons ou de pétaoctets de données pour converger. La taille croissante des jeux de données d’entraînement, associée à la taille des modèles de pointe, peut augmenter le temps de calcul et le coût de l’entraînement des modèles.

Invariablement, les exemples d’un jeu de données ne contribuent pas de la même manière au processus d’apprentissage lors de l’entraînement des modèles. Une part importante des ressources informatiques allouées pendant l’entraînement peut être consacrée au traitement d’exemples simples qui ne contribuent pas de manière significative à l’exactitude globale d’un modèle. Idéalement, les jeux de données d’entraînement n’incluraient que des exemples qui améliorent réellement la convergence des modèles. Le filtrage des données moins utiles peut réduire le temps d’entraînement et les coûts de calcul. Cependant, l’identification de données moins utiles peut s’avérer difficile et risquée. Il est difficile d’identifier les exemples les moins informatifs avant l’entraînement et l’exactitude du modèle peut être affectée si les mauvais exemples ou un trop grand nombre d’exemples sont exclus.

Le tri intelligent des données avec Amazon SageMaker AI peut contribuer à réduire le temps et les coûts de formation en améliorant l'efficacité des données. L'algorithme de criblage SageMaker intelligent évalue la valeur de perte de chaque donnée pendant la phase de chargement des données d'une tâche de formation et exclut les échantillons moins informatifs pour le modèle. En utilisant des données raffinées pour l’entraînement, le temps et le coût totaux de l’entraînement de votre modèle sont réduits en éliminant les transmissions avant et arrière inutiles sur des données qui ne s’améliorent pas. Par conséquent, l’impact sur l’exactitude du modèle est minime ou nul.

SageMaker le criblage intelligent est disponible via SageMaker Training Deep Learning Containers (DLC) et prend en charge les PyTorch charges de travail via le. PyTorch DataLoader Quelques lignes de code seulement sont nécessaires pour implémenter le tri SageMaker intelligent et vous n'avez pas besoin de modifier vos flux de formation ou de traitement des données existants.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Bonnes pratiques pour le réglage des hyper-paramètres

Comment fonctionne le tamisage SageMaker intelligent