Déploiement de modèles Autopilot pour l’inférence en temps réel - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Déploiement de modèles Autopilot pour l’inférence en temps réel

Après avoir entraîné vos modèles Amazon SageMaker Autopilot, vous pouvez configurer un point de terminaison et obtenir des prédictions de manière interactive. La section suivante décrit les étapes à suivre pour déployer un modèle sur un point de terminaison d’inférence en temps réel SageMaker AI afin d’obtenir des prédictions à partir du modèle.

Inférence en temps réel

L’inférence en temps réel est idéale pour les charges de travail d’inférence où vous avez des exigences en temps réel, interactives et à faible latence. Cette section montre comment vous pouvez utiliser l'inférence en temps réel pour obtenir des prévisions interactives à partir de votre modèle.

Vous pouvez utiliser les API SageMaker pour déployer manuellement le modèle qui a généré la meilleure métrique de validation dans une expérience Autopilot, comme suit.

Vous pouvez également choisir l'option de déploiement automatique lors de la création de votre expérience Autopilot. Pour en savoir plus sur la configuration du déploiement automatique de modèles, consultez ModelDeployConfig dans les paramètres de demande de CreateAutoMLJobV2. Cela crée automatiquement un point de terminaison.

Note

Pour éviter des frais inutiles, vous pouvez supprimer le point de terminaison inutile et les ressources créées dans le cadre du déploiement de modèle. Pour plus d’informations sur la tarification des instances par région, consultez Tarification d’Amazon SageMaker.

  1. Obtenir des définitions de conteneurs candidats

    Obtenez les définitions de conteneurs candidats auprès d'InferenceContainers. Une définition de conteneur pour l’inférence fait référence à l’environnement conteneurisé conçu pour déployer et exécuter un modèle SageMaker AI entraîné afin d’effectuer des prédictions.

    L'exemple de commande AWS CLI suivant utilise l'API DescribeAutoMLJobV2 pour obtenir les définitions de candidats pour le meilleur modèle candidat.

    aws sagemaker describe-auto-ml-job-v2 --auto-ml-job-name job-name --region region
  2. Répertorier les candidats

    L'exemple de commande AWS CLI suivant utilise l'API ListCandidatesForAutoMLJob pour répertorier tous les modèles candidats.

    aws sagemaker list-candidates-for-auto-ml-job --auto-ml-job-name <job-name> --region <region>
  3. Création d’un modèle SageMaker AI

    Utilisez les définitions de conteneurs des étapes précédentes et un candidat de votre choix pour créer un modèle SageMaker AI en utilisant l’API CreateModel. La commande AWS CLI suivante constitue un exemple.

    aws sagemaker create-model --model-name '<your-candidate-name>' \ --containers ['<container-definition1>, <container-definition2>, <container-definition3>]' \ --execution-role-arn '<execution-role-arn>' --region '<region>
  4. Créer une configuration de point de terminaison

    L'exemple de commande AWS CLI suivant utilise l'API CreateEndpointConfig pour créer une configuration de point de terminaison.

    aws sagemaker create-endpoint-config --endpoint-config-name '<your-endpoint-config-name>' \ --production-variants '<list-of-production-variants>' \ --region '<region>'
  5. Créer le point de terminaison

    L'exemple AWS CLI suivant utilise l'API CreateEndpoint pour créer le point de terminaison.

    aws sagemaker create-endpoint --endpoint-name '<your-endpoint-name>' \ --endpoint-config-name '<endpoint-config-name-you-just-created>' \ --region '<region>'

    Vérifiez la progression du déploiement de votre point de terminaison à l'aide de l'API DescribeEndpoint. La commande AWS CLI suivante constitue un exemple.

    aws sagemaker describe-endpoint —endpoint-name '<endpoint-name>' —region <region>

    Lorsque EndpointStatus devient InService, le point de terminaison est prêt à être utilisé pour l'inférence en temps réel.

  6. Appeler le point de terminaison

    La structure de commande suivante appelle le point de terminaison pour une inférence en temps réel.

    aws sagemaker invoke-endpoint --endpoint-name '<endpoint-name>' \ --region '<region>' --body '<your-data>' [--content-type] '<content-type>' <outfile>