Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Déploiement de votre modèle à grande échelle
Configurez l'auto-scaling et la CloudWatch surveillance de votre point de terminaison d' SageMaker IA afin de le préparer à la production.
Raisons de l’importance de la surveillance en production pour la classification de textes
Les charges de travail de classification de textes doivent être surveillées, car elles :
connaissent des modèles de trafic variables avec des pics de traitement ;
nécessitent des temps de réponse inférieurs à la seconde ;
ont besoin d’une optimisation des coûts via l’autoscaling.
Conditions préalables
Avant de commencer, assurez-vous que :
Votre point de terminaison d' SageMaker IA a été déployé à partir de la section précédente.
Le nom de votre point de terminaison (par exemple, jumpstart-dft-hf-tc).
Votre Région AWS (par exemple, us-east-2).
Pour la création ou le dépannage du point de terminaison, consultez Inférence en temps réel.
Configuration de la surveillance en production
Configurez la CloudWatch surveillance pour suivre les performances de votre modèle en production.
-
Dans votre JupyterLab espace, ouvrez le
sagemaker_production_monitoring.ipynbbloc-notes du package d'évaluation que vous avez chargé précédemment. -
Mettez à jour la région et le nom de votre point de terminaison dans la section de configuration.
-
Suivez les instructions du bloc-notes pour configurer :
l’autoscaling (1 à 10 instances en fonction du trafic),
CloudWatch des alarmes pour les seuils de latence et d'invocation.
le tableau de bord des métriques pour une surveillance visuelle.
Vérification de votre configuration
Une fois les étapes du bloc-notes terminées, vérifiez que vous disposez des éléments suivants :
Statut du point de terminaison :
InService.Autoscaling : 1 à 10 instances configurées.
CloudWatch Alarmes : surveillance de 2 alarmes.
Métriques : plus de 15 métriques enregistrées.
Note
Les alarmes peuvent indiquer INSUFFICIENT_DATA initialement. Ceci est normal et sera remplacé par OK à mesure de l’utilisation.
Surveillance de votre point de terminaison
Accédez à la surveillance visuelle via la console AWS de gestion :
Pour plus d'informations, consultez la section Monitor SageMaker AI.
Gestion des coûts et nettoyage des ressources
Votre configuration de surveillance fournit des informations précieuses sur la production, mais elle entraîne également des AWS frais permanents via des CloudWatch métriques, des alarmes et des politiques d'auto-scaling. Comprendre comment gérer ces coûts est essentiel pour assurer la rentabilité des opérations. Nettoyez les ressources lorsqu’elles ne seront plus nécessaires.
Avertissement
Votre point de terminaison continue de générer des frais même lorsqu’il ne traite pas de demandes. Pour arrêter tous les frais, vous devez supprimer votre point de terminaison. Pour connaître la procédure à suivre, consultez Suppression des points de terminaison et des ressources.
Pour les configurations de surveillance avancées, voir CloudWatch Metrics for SageMaker AI.