Conditions préalables à l’autoscaling

Avant de pouvoir utiliser la mise à l'échelle automatique, vous devez déjà avoir créé un point de terminaison du modèle Amazon SageMaker AI. Vous pouvez avoir plusieurs versions de modèle pour le même point de terminaison. Chaque modèle est appelé variante de production (modèle). Pour plus d’informations sur le déploiement d’un point de terminaison de modèle, consultez Déployer le modèle sur les services d'hébergement SageMaker AI.

Pour activer le dimensionnement automatique d'un modèle, vous pouvez utiliser la console SageMaker AI, le AWS Command Line Interface (AWS CLI) ou un AWS SDK via l'API Application Auto Scaling.

Si c’est la première fois que vous configurez l’autoscaling d’un modèle, nous vous recommandons Configuration de l’autoscaling d’un modèle avec la console.
Lorsque vous utilisez l'API Application Auto Scaling AWS CLI ou l'API Application Auto Scaling, le flux consiste à enregistrer le modèle en tant que cible évolutive, à définir la politique de dimensionnement, puis à l'appliquer. Sur la console SageMaker AI, sous Inference dans le volet de navigation, sélectionnez Endpoints. Recherchez le nom du point de terminaison de votre modèle, puis choisissez-le pour trouver le nom de la variante. Vous devez spécifier à la fois le nom du point de terminaison et le nom de la variante pour activer l’autoscaling d’un modèle.

Le dimensionnement automatique est rendu possible par une combinaison des API Amazon SageMaker AI CloudWatch, Amazon et Application Auto Scaling. Pour plus d’informations sur les autorisations minimales requises, consultez les Exemples de stratégies Application Auto Scaling basées sur une identité dans le Guide de l’utilisateur Application Auto Scaling.

La politique IAM SagemakerFullAccessPolicy possède toutes les autorisations IAM requises pour effectuer l’autoscaling. Pour plus d'informations sur les autorisations SageMaker AI IAM, consultezComment utiliser les rôles d'exécution de l' SageMaker IA.

Si vous gérez votre propre stratégie d’autorisation, vous devez inclure les autorisations suivantes :

Service-linked rôle

Auto Scaling utilise le rôle lié à un service AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint. Le rôle lié à un service donne à Application Auto Scaling l’autorisation de décrire les alarmes de vos stratégies, de surveiller les niveaux de capacité actuels et de mettre à l’échelle la ressource cible. Ce rôle est créé automatiquement pour vous. Pour que la création automatique de rôle réussisse, vous devez avoir l’autorisation pour l’action iam:CreateServiceLinkedRole. Pour plus d'informations, consultez les Service-linked rôles dans le guide de l'utilisateur d'Application Auto Scaling.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Présentation des politiques d’autoscaling

Configuration de l’autoscaling d’un modèle avec la console