Sélection des hyperparamètres
Nous vous recommandons de commencer avec les hyperparamètres par défaut, qui sont basés sur notre évaluation de tâches de complexité et de taille de données variables. Cependant, vous devrez peut-être ajuster et optimiser certains hyperparamètres en fonction de votre cas d’utilisation lorsque vous évaluerez les performances.
Rubriques
Conseils pour l’ajustement des hyperparamètres
Les conseils généraux suivants peuvent vous aider à déterminer comment ajuster les hyperparamètres lors du peaufinage d’un modèle.
Ajustez les époques en fonction de la taille de l’échantillon : le nombre d’époques par défaut est de 2, ce qui convient dans la plupart des cas. En général, les ensembles de données plus volumineux nécessitent moins d’époques pour converger, tandis que les ensembles de données plus petits nécessitent une époque d’entraînement plus longue pour converger. Nous vous recommandons d’ajuster vos époques en fonction de la taille de l’échantillon de données.
Structure des invites : l’optimisation de la stratégie d’invite peut améliorer les performances d’un modèle peaufiné. Il est utile de consacrer du temps à l’optimisation des modèles d’invite sur les modèles existants avant de les utiliser pour le peaufinage. Nous vous recommandons de respecter les bonnes pratiques en matière d’invite suivies par Amazon Nova afin d’obtenir les meilleurs résultats en termes de performances.
Augmentation des époques effectives : étant donné que le service Amazon Bedrock Customization limite les époques à 5, cela peut entraver le sous-entraînement sur des jeux de données plus petits. Par conséquent, pour les échantillons plus petits (moins de 1 000), nous vous recommandons de dupliquer les données afin d’augmenter « Époque effective ». Par exemple, si le jeu de données est dupliqué deux fois, l’entraînement de 5 époques équivaudrait en réalité à 10 époques sur les données d’origine. Pour les échantillons plus importants (jusqu’à 5 000), nous recommandons 2 époques, et pour les échantillons de plus de 5 000, nous recommandons d’utiliser 1 époque pour une convergence plus rapide.
Éviter un nombre élevé de réchauffements pour les petits échantillons : le taux d’apprentissage augmentera progressivement jusqu’à la valeur définie pendant le réchauffement. Par conséquent, il est conseillé d’éviter un nombre élevé de réchauffements pour un petit échantillon d’entraînement, car votre taux d’apprentissage pourrait ne jamais atteindre la valeur définie pendant le processus d’entraînement. Nous recommandons de définir les étapes de préchauffage en divisant la taille du jeu de données par 640 pour Amazon Nova Micro, par 160 pour Amazon Nova Lite et par 320 pour Amazon Nova Pro, puis en arrondissant le nombre.
Taux d’apprentissage plus élevé pour les modèles plus petits : Amazon Nova Micro peut bénéficier d’un taux d’apprentissage plus élevé en raison de la taille effective des lots utilisés en arrière-plan.
La qualité plutôt que la quantité : la qualité des données d’entraînement est plus importante que la quantité. Commencez par un petit jeu de données de haute qualité pour le peaufinage initial et l’évaluation des performances, puis itérez et développez en fonction des résultats.
Affiner les données : pour certains cas d’utilisation, il peut être avantageux de nettoyer et d’améliorer les données d’entraînement à l’aide des modèles Amazon Nova. Ces données affinées peuvent ensuite être utilisées pour optimiser efficacement des modèles plus petits.
Diversifier et augmenter : vous pouvez améliorer les performances du modèle en augmentant la variation et la diversité de votre jeu de données de personnalisation. Vos données de peaufinage et d’évaluation doivent être cohérentes avec la distribution réelle du trafic que le modèle va rencontrer.
Distillation : Amazon Nova Lite et Amazon Nova Pro peuvent être utilisés pour générer des données d’entraînement pour optimiser les modèles Amazon Nova Micro. Cette méthode peut s’avérer très efficace si les modèles plus grands sont déjà très performants pour la tâche cible.
Quand distiller ou peaufiner ?
Nous vous recommandons d’utiliser la distillation lorsque
Vous ne disposez pas de données étiquetées et que les modèles plus grands de la famille (alias modèles enseignants) sont très performants pour la tâche cible.
Les modèles plus grands sont plus performants que les modèles plus petits pour la tâche cible, mais vous avez besoin de la latence et du profil de coût des modèles plus petits avec la précision des modèles plus grands.
Nous vous recommandons d’utiliser le peaufinage personnalisé lorsque
vous n’obtenez pas de bonnes performances, même avec un modèle plus grand, et qu’il existe un écart d’intelligence dans le modèle.
Votre cas d’utilisation se situe dans un domaine très restreint et n’est pas assez général pour que le modèle le connaisse.