Optimisation de l’entraînement distribué

Personnalisez les hyperparamètres de votre cas d'utilisation et de vos données afin d'obtenir la meilleure efficacité de mise à l'échelle. Dans cette rubrique, nous mettons en évidence certaines des variables d'entraînement les plus influentes et fournissons des références à des implémentations de pointe pour vous permettre d'en savoir plus sur vos options. En outre, nous vous recommandons de consulter la documentation d'entraînement distribué de votre cadre préféré.

Taille de lot

SageMaker Les boîtes à outils distribuées par IA vous permettent généralement de vous entraîner sur des lots plus importants. Par exemple, si un modèle tient dans un seul périphérique mais ne peut être entraîné qu'avec un lot de petite taille, un entraînement pour le parallélisme des modèles ou des données vous permet d'expérimenter des lots de plus grande taille.

N'oubliez pas que la taille du lot influe directement sur la précision du modèle en contrôlant la quantité de bruit dans la mise à jour du modèle à chaque itération. L'augmentation de la taille du lot réduit la quantité de bruit dans l'estimation du gradient, ce qui peut être avantageux en cas d'augmentation à partir de lots de très petite taille, mais peut entraîner une dégradation de la précision du modèle à mesure que la taille du lot augmente pour atteindre des valeurs élevées.

Astuce

Ajustez vos hyperparamètres pour vous assurer que l'entraînement de votre modèle tend vers une convergence satisfaisante à mesure que la taille du lot augmente.

Certaines techniques ont été développées afin d'assurer une bonne convergence des modèles lorsque la taille du lot augmente.

Mini-batch taille

Dans l'approche SGD, la taille du mini-lot quantifie la quantité de bruit présente dans l'estimation du gradient. Un mini-lot de petite taille produit un gradient de mini-lot très bruyant, ce qui n'est pas représentatif du gradient réel sur le jeu de données. Un mini-lot de grande taille produit un gradient de mini-lot proche du gradient réel sur le jeu de données et potentiellement pas assez bruyant, de sorte qu'il risque de rester verrouillé dans des minima non pertinents.

Pour en savoir plus sur ces techniques, consultez les articles suivants :

Minibatch précis et volumineux SGD:Training ImageNet en 1 heure, Goya et al.
DDL PowerAI, Cho et autres.
Mise à l'échelle pour les gros lots SGD : entraînement du réseau résiduel ImageNet-1K avec une précision améliorée et un temps d'entraînement réduit, Codreanu et al.
ImageNet Entraînement en quelques minutes, You et coll.
Entraînement en lots grand format de réseaux convolutionnaires, Vous et autres.
Optimisation en lots grand format pour Deep Learning : entraînement BERT en 76 minutes, Vous et autres.
Optimisation accélérée en lots grand format pour pré-entraînement BERT en 54 minutes, Zheng et autres.
Compression du gradient profond, Lin et autres.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Stratégies d’entraînement distribué

Mise à l’échelle d’un entraînement