Déploiement de modèles dans SageMaker AI
Une fois que vous avez entraîné et approuvé un modèle pour la production, utilisez SageMaker AI pour déployer votre modèle sur un point de terminaison à des fins d’inférence en temps réel. SageMaker AI propose plusieurs options d’inférence afin que vous puissiez choisir celle qui convient le mieux à votre charge de travail. Vous configurez également votre point de terminaison en choisissant le type d’instance et le nombre d’instances dont vous avez besoin pour obtenir des performances optimales. Pour plus d'informations sur le déploiement de modèles, consultez Déploiement de modèles pour l'inférence.
Après avoir déployé vos modèles en production, vous pouvez explorer des moyens d'optimiser encore les performances des modèles tout en maintenant la disponibilité de vos modèles actuels. Par exemple, vous pouvez configurer un essai miroir pour tester un autre modèle ou une autre infrastructure de service avant de vous engager dans le changement. SageMaker AI déploie le nouveau modèle, le nouveau conteneur ou la nouvelle instance en mode fantôme et y route une copie des demandes d’inférence en temps réel au sein du même point de terminaison. Vous pouvez journaliser les réponses de la variante shadow à des fins de comparaison. Pour plus de détails sur les essais miroirs, consultez Essais miroirs. Si vous décidez d'aller de l'avant et de modifier votre modèle, les barrières de protection de déploiement vous aident à contrôler le passage du modèle actuel à un nouveau modèle. Vous pouvez sélectionner des méthodes telles que le test bleu/vert ou Canary du processus de transfert du trafic afin de maintenir un contrôle précis pendant la mise à jour. Pour obtenir des informations sur les barrières de protection de déploiement, consultez Barrières de protection de déploiement pour la mise à jour des modèles en production.