Hyperparamètres d’optimisation du processus d’apprentissage de vos modèles de génération de texte - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Hyperparamètres d’optimisation du processus d’apprentissage de vos modèles de génération de texte

Vous pouvez optimiser le processus d’apprentissage de votre modèle de base en ajustant n’importe quelle combinaison des hyperparamètres suivants. Ces paramètres sont disponibles pour tous les modèles.

  • Nombre d’époques : l’hyperparamètre epochCount détermine le nombre de fois que le modèle parcourt le jeu de données d’entraînement dans son intégralité. Il influence la durée de l’entraînement et peut empêcher le surajustement lorsqu’il est réglé de façon appropriée. Un grand nombre d’époques peut augmenter le temps d’exécution global des tâches de peaufinage. Nous vous recommandons de définir une grande valeur MaxAutoMLJobRuntimeInSeconds pour CompletionCriteria dans TextGenerationJobConfig afin d’éviter que les tâches de peaufinage ne s’arrêtent prématurément.

  • Taille du lot : l’hyperparamètre batchSize définit le nombre d’exemples de données utilisés lors de chaque itération d’entraînement. Il peut affecter la vitesse de convergence et l’utilisation de la mémoire. Lorsque la taille des lots est importante, le risque d’erreurs liées au manque de mémoire (OOM) augmente, ce qui peut se traduire par une erreur interne du serveur dans Autopilot. Pour détecter une telle erreur, consultez le groupe de journaux /aws/sagemaker/TrainingJobs des tâches d’entraînement lancées par votre tâche Autopilot. Vous pouvez accéder à ces journaux dans CloudWatch depuis la console de gestion AWS. Choisissez Journaux, puis le groupe de journaux /aws/sagemaker/TrainingJobs. Pour corriger les erreurs OOM, réduisez la taille du lot.

    Nous vous recommandons de commencer par une taille de lot de 1, puis de l’augmenter progressivement jusqu’à ce qu’une erreur de mémoire insuffisante se produise. À titre de référence, le traitement complet de 10 époques prend généralement jusqu’à 72 heures.

  • Taux d’apprentissage : l’hyperparamètre learningRate contrôle la taille de l’étape à laquelle les paramètres d’un modèle sont mis à jour pendant l’entraînement. Il détermine la rapidité ou la lenteur avec laquelle les paramètres du modèle sont mis à jour pendant l’entraînement. Un taux d’apprentissage élevé signifie que les paramètres sont mis à jour par étapes importantes, ce qui peut accélérer la convergence, mais aussi entraîner le dépassement de la solution optimale et l’instabilité du processus d’optimisation. Un faible taux d’apprentissage signifie que les paramètres sont mis à jour par petites étapes, ce qui peut conduire à une convergence plus stable, mais au prix d’un apprentissage plus lent.

  • Étapes d’échauffement du taux d’apprentissage : l’hyperparamètre learningRateWarmupSteps indique le nombre d’étapes d’entraînement au cours desquelles le taux d’apprentissage augmente progressivement avant d’atteindre sa valeur cible ou maximale. Cela permet au modèle de converger plus efficacement et d’éviter les problèmes tels que la divergence ou la lenteur de convergence, qui peuvent survenir avec un taux d’apprentissage initialement élevé.

Pour savoir comment ajuster les hyperparamètres pour votre expérience de peaufinage dans Autopilot et découvrir leurs valeurs possibles, consultez Comment définir les hyperparamètres pour optimiser le processus d’apprentissage d’un modèle.