Configuration de l’autoscaling d’un modèle avec la console

Pour configurer l’autoscaling d’un modèle (console)

Ouvrez la console Amazon SageMaker AI à l'adresse https://console.aws.amazon.com/sagemaker/.
Dans le volet de navigation, choisissez Inférence, puis Points de terminaison.
Choisissez votre point de terminaison, puis pour les Paramètres d’exécution du point de terminaison, choisissez la variante.
Choisissez Configurer Auto Scaling.
Sur la page Configurer la mise à l’échelle automatique d’une variante, pour Mise à l’échelle automatique d’une variante, procédez comme suit :
1. Pour Nombre minimal d’instances, saisissez le nombre minimal d’instances que la stratégie de mise à l’échelle doit gérer. Au moins 1 instance est requise.
2. Pour Nombre maximal d’instances, saisissez le nombre maximal d’instances que la stratégie de mise à l’échelle doit gérer.
Pour la politique de Built-in dimensionnement, procédez comme suit :
1. Pour la Métrique cible, SageMakerVariantInvocationsPerInstance est automatiquement sélectionné pour la métrique et ne peut pas être modifié.
2. Pour la Valeur cible, saisissez le nombre moyen d’invocations par instance et par minute pour le modèle. Pour déterminer cette valeur, suivez les instructions proposées dans Test de charge.
3. (Facultatif) Pour le Scale-in refroidissement (secondes) et le Scale-out refroidissement (secondes), entrez la durée, en secondes, pour chaque période de refroidissement.
4. (Facultatif) Sélectionnez Désactiver la diminution en charge si vous ne souhaitez pas que l’autoscaling résilie les instances lorsque le trafic diminue.
Choisissez Enregistrer.

Cette procédure enregistre un modèle en tant que cible évolutive avec Application Auto Scaling. Lorsque vous enregistrez un modèle, Application Auto Scaling effectue les contrôles de validation pour garantir que :

Le modèle existe
Les autorisations sont suffisantes
Vous n’enregistrez pas une variante avec une instance qui est une instance à performances extensibles comme T2

Note
SageMaker L'IA ne prend pas en charge la mise à l'échelle automatique pour les instances instables telles que T2, car elles permettent déjà d'augmenter la capacité dans le cadre de charges de travail accrues. Pour plus d’informations sur les instances à performances extensibles, consultez Types d’instances Amazon EC2.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Conditions préalables

Enregistrement d’un modèle

Configuration de l’autoscaling d’un modèle avec la console

Pour configurer l’autoscaling d’un modèle (console)

Note