View a markdown version of this page

Optimisation de l’entraînement distribué - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Optimisation de l’entraînement distribué

Personnalisez les hyperparamètres de votre cas d'utilisation et de vos données afin d'obtenir la meilleure efficacité de mise à l'échelle. Dans cette rubrique, nous mettons en évidence certaines des variables d'entraînement les plus influentes et fournissons des références à des implémentations de pointe pour vous permettre d'en savoir plus sur vos options. En outre, nous vous recommandons de consulter la documentation d'entraînement distribué de votre cadre préféré.

Taille de lot

SageMaker Les boîtes à outils distribuées par IA vous permettent généralement de vous entraîner sur des lots plus importants. Par exemple, si un modèle tient dans un seul périphérique mais ne peut être entraîné qu'avec un lot de petite taille, un entraînement pour le parallélisme des modèles ou des données vous permet d'expérimenter des lots de plus grande taille.

N'oubliez pas que la taille du lot influe directement sur la précision du modèle en contrôlant la quantité de bruit dans la mise à jour du modèle à chaque itération. L'augmentation de la taille du lot réduit la quantité de bruit dans l'estimation du gradient, ce qui peut être avantageux en cas d'augmentation à partir de lots de très petite taille, mais peut entraîner une dégradation de la précision du modèle à mesure que la taille du lot augmente pour atteindre des valeurs élevées. 

Astuce

Ajustez vos hyperparamètres pour vous assurer que l'entraînement de votre modèle tend vers une convergence satisfaisante à mesure que la taille du lot augmente.

Certaines techniques ont été développées afin d'assurer une bonne convergence des modèles lorsque la taille du lot augmente.

Mini-batch taille

Dans l'approche SGD, la taille du mini-lot quantifie la quantité de bruit présente dans l'estimation du gradient. Un mini-lot de petite taille produit un gradient de mini-lot très bruyant, ce qui n'est pas représentatif du gradient réel sur le jeu de données. Un mini-lot de grande taille produit un gradient de mini-lot proche du gradient réel sur le jeu de données et potentiellement pas assez bruyant, de sorte qu'il risque de rester verrouillé dans des minima non pertinents.

Pour en savoir plus sur ces techniques, consultez les articles suivants :