Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Créez et gérez des tâches de réglage précis pour les modèles Amazon Nova
Vous pouvez créer une tâche de réglage fin du renforcement (RFT) à l'aide de la console ou de l'API Amazon Bedrock. Le travail RFT peut prendre quelques heures en fonction de la taille de vos données d'entraînement, du nombre d'époques et de la complexité de vos fonctions de récompense.
Conditions préalables
-
Créez un rôle de service IAM avec les autorisations requises. Pour obtenir des informations complètes sur la sécurité et les autorisations, y compris les autorisations spécifiques à RFT, consultez. Accès et sécurité pour les modèles Amazon Nova
-
(Facultatif) Chiffrez les données d'entrée et de sortie, votre tâche RFT ou les demandes d'inférence adressées à des modèles personnalisés. Pour plus d'informations, consultez la section Chiffrement des modèles personnalisés.
Créez votre job RFT
Choisissez l’onglet correspondant à votre méthode préférée, puis suivez les étapes :
Surveillez votre travail de formation RFT
Amazon Bedrock fournit une surveillance en temps réel à l'aide de graphiques visuels et de mesures pendant la formation RFT. Ces indicateurs vous aident à comprendre si le modèle converge correctement et si la fonction de récompense guide efficacement le processus d'apprentissage.
Suivi de l'état des emplois
Vous pouvez suivre le statut de votre poste RFT pendant les phases de validation et de formation dans la console Amazon Bedrock.
Indicateurs d'achèvement :
-
Le statut du job passe à Terminé lorsque la formation est terminée avec succès
-
Le modèle d'ARN personnalisé devient disponible pour le déploiement
-
Les indicateurs de formation atteignent les seuils de convergence
Indicateurs d'entraînement en temps réel
Amazon Bedrock fournit une surveillance en temps réel pendant la formation RFT avec des graphiques visuels affichant les mesures de formation et de validation.
Indicateurs d'entraînement de base
-
Perte d'entraînement : mesure dans quelle mesure le modèle apprend à partir des données d'entraînement
-
Statistiques sur les récompenses d'entraînement - Affiche les scores de récompenses attribués par vos fonctions de récompense
-
Marge de récompense : mesure la différence entre les récompenses pour bonnes et mauvaises réponses
-
Précision des ensembles d'entraînement et de validation : affiche les performances du modèle à la fois sur les données d'entraînement et sur les données maintenues
Catégories métriques détaillées
Indicateurs de récompenses —
critic/rewards/meancritic/rewards/max,,critic/rewards/min(distribution des récompenses) etval-score/rewards/mean@1(récompenses de validation)Comportement du modèle —
actor/entropy(variation des politiques ; une valeur plus élevée correspond à une approche plus exploratoire)État de la formation :
actor/pg_loss(perte du gradient des politiques),actor/pg_clipfrac(fréquence des mises à jour découpées) etactor/grad_norm(amplitude du gradient)Caractéristiques de réponse —
prompt_length/mean,prompt_length/max,prompt_length/min(statistiques des jetons d'entrée),response_length/mean,response_length/max,response_length/min(statistiques des jetons de sortie) etresponse/aborted_ratio(taux de génération incomplet ; 0 est égal à tout terminé)Performances :
perf/throughput(débit d'entraînement),perf/time_per_step(temps par étape d'entraînement) ettiming_per_token_ms/*(temps de traitement par jeton)Utilisation des ressources —
perf/max_memory_allocated_gb,perf/max_memory_reserved_gb(mémoire GPU) etperf/cpu_memory_used_gb(mémoire CPU)
Visualisation des progrès de l'entraînement
La console affiche des graphiques interactifs qui sont mis à jour en temps réel au fur et à mesure de l'avancement de votre tâche RFT. Ces visualisations peuvent vous aider à :
-
Suivez la convergence vers des performances optimales
-
Identifiez rapidement les problèmes de formation potentiels
-
Déterminer les points d'arrêt optimaux
-
Comparez les performances à différentes époques
Configurer l'inférence
Une fois le travail terminé, déployez le modèle RFT pour une inférence à la demande ou utilisez le débit provisionné pour des performances constantes. Pour configurer l'inférence, voirConfiguration de l’inférence pour un modèle personnalisé.
Utilisez Test in Playground pour évaluer et comparer les réponses avec le modèle de base. Pour évaluer votre modèle RFT terminé, consultezÉvaluez votre modèle RFT.