Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Étapes suivantes pour l’inférence avec Amazon SageMaker AI
Une fois que vous disposez d’un point de terminaison et avez compris le flux de travail d’inférence général, vous pouvez utiliser les caractéristiques suivantes dans SageMaker AI pour améliorer votre flux de travail d’inférence.
Surveillance
Pour suivre votre modèle au fil du temps à l'aide de métriques telles que la précision et la dérive du modèle, vous pouvez utiliser Model Monitor. Model Monitor vous permet de définir des alertes qui vous avertiront en cas d'écarts dans la qualité du modèle. Pour en savoir plus, consultez la documentation sur Model Monitor.
Afin d’en savoir plus sur les outils pouvant être utilisés pour surveiller les déploiements de modèles et les événements qui modifient votre point de terminaison, consultez Surveiller Amazon SageMaker AI. Par exemple, vous pouvez surveiller l'état de santé de votre point de terminaison à l'aide de métriques telles que les erreurs d'invocation et la latence des modèles à l'aide des métriques Amazon CloudWatch. Les métriques d’invocation de point de terminaison SageMaker AI peuvent vous fournir des informations précieuses sur les performances de votre point de terminaison.
CI/CD pour le déploiement d'un modèle
Pour créer des solutions de machine learning dans SageMaker AI, vous pouvez utiliser SageMaker MLOps. Vous pouvez utiliser cette fonctionnalité pour automatiser les étapes de votre flux de travail de machine learning et pratiquer la CI/CD. Vous pouvez utiliser les modèles de projet MLOps pour vous aider à configurer et à mettre en œuvre des projets MLOps SageMaker AI. SageMaker AI prend également en charge l’utilisation de votre propre référentiel Git tiers pour créer un système CI/CD.
Pour vos pipelines ML, utilisez Model Registry pour gérer vos versions de modèle ainsi que le déploiement et l'automatisation de vos modèles.
Barrières de protection de déploiement
Si vous souhaitez mettre à jour votre modèle pendant qu'il est en production sans affecter la production, vous pouvez utiliser des barrières de protection de déploiement. Les barrières de protection de déploiement sont un ensemble d’options de déploiement de modèle dans SageMaker AI Inference permettant de mettre à jour vos modèles de machine learning en production. À l'aide des options de déploiement entièrement gérées, vous pouvez contrôler le passage du modèle actuel en production à un nouveau. Les modes de déplacement de trafic vous permettent de contrôler précisément le processus de déplacement de trafic, et des dispositifs de protection intégrés tels que les restaurations automatiques favorisent la détection précoce des problèmes.
Pour en savoir plus sur les barrières de protection de déploiement, consultez la documentation sur les barrières de protection de déploiement.
Inferentia
Si vous devez exécuter des applications de machine learning et de deep learning à grande échelle, vous pouvez utiliser une instance Inf1 avec un point de terminaison en temps réel. Ce type d’instance convient aux cas d’utilisation tels que la reconnaissance vocale ou d’images, le traitement du langage naturel (NLP), la personnalisation, les prévisions ou la détection des fraudes.
Les instances Inf1 sont conçues pour prendre en charge les applications d'inférence de machine learning et intègrent les puces AWS Inferentia. Les instances Inf1 fournissent un débit supérieur et un coût par inférence inférieur à celui des instances basées sur GPU.
Pour déployer un modèle sur des instances Inf1, compilez votre modèle avec SageMaker Neo et choisissez une instance Inf1 pour votre option de déploiement. Pour en savoir plus, consultez Optimisation des performances de modèle avec SageMaker Neo.
Optimisation des performances de modèle
SageMaker AI propose des caractéristiques permettant de gérer les ressources et d’optimiser les performances d’inférence lors du déploiement de modèles de machine learning. Vous pouvez utiliser les algorithmes intégrés et les modèles prédéfinis SageMaker AI, ainsi que les images Docker prédéfinies, développés pour le machine learning.
Pour entraîner les modèles et les optimiser en vue du déploiement, consultez Images Docker prédéfinies et Optimisation des performances des modèles à l’aide de SageMaker Neo. Avec SageMaker Neo, vous pouvez entraîner les modèles TensorFlow, Apache MXNet, PyTorch, ONNX et XGBoost. Vous pouvez ensuite les optimiser et les déployer sur des processeurs ARM, Intel et Nvidia.
Autoscaling
Si le trafic vers vos points de terminaison est variable, vous pouvez essayer la mise à l'échelle automatique. Par exemple, pendant les heures de pointe, vous pouvez avoir besoin de davantage d’instances pour traiter les demandes. Vous pouvez toutefois réduire votre utilisation des ressources de calcul pendant les périodes de faible trafic. Pour ajuster dynamiquement le nombre d'instances mises en service en réponse aux modifications apportées à votre charge de travail, consultez Mise à l'échelle automatique des modèles Amazon SageMaker AI.
Si vos modèles de trafic sont imprévisibles ou si vous ne souhaitez pas configurer de politiques de mise à l’échelle, vous pouvez également utiliser l’inférence sans serveur pour un point de terminaison. SageMaker AI gère ensuite la mise à l’échelle automatique pour vous. SageMaker AI réduit verticalement la capacité de votre point de terminaison pendant les périodes de faible trafic, et l’augmente verticalement quand le trafic s’amplifie. Pour plus d’informations, consultez la documentation Déployez des modèles avec Amazon SageMaker Serverless Inference.