Requisitos previos de escalado automático

Para poder utilizar el escalado automático, debe haber creado ya un punto final del modelo Amazon SageMaker AI. Puede tener varias versiones del modelo para el mismo punto de conexión. Cada modelo se denomina variante de producción (modelo). Para obtener más información sobre la implementación de un punto de enlace del modelo, consulte Implemente el modelo en los servicios de alojamiento de SageMaker IA.

Para activar el autoescalado de un modelo, puede usar la consola de SageMaker IA, el AWS Command Line Interface (AWS CLI) o un AWS SDK a través de la API Application Auto Scaling.

Si es la primera vez que configura el escalado de un modelo, le recomendamos Configuración del escalado automático de modelos con la consola.
Cuando se utiliza la AWS CLI API Application Auto Scaling, el flujo consiste en registrar el modelo como un objetivo escalable, definir la política de escalado y, a continuación, aplicarla. En la consola de SageMaker IA, en Inferencia del panel de navegación, elija Endpoints. Busque el nombre del punto de conexión del modelo y, a continuación, elíjalo para buscar el nombre de la variante. Debe especificar tanto el nombre del punto de conexión como el nombre de la variante para activar el escalado automático de un modelo.

El escalado automático es posible gracias a una combinación de las API Amazon SageMaker AI CloudWatch, Amazon y Application Auto Scaling. Para obtener información sobre los permisos mínimos necesarios, consulte los Application Auto Scaling identity-based policy examples en la Guía del usuario de Application Auto Scaling.

La política de IAM SagemakerFullAccessPolicy dispone de todos los permisos de IAM necesarios para el escalado automático. Para obtener más información sobre los permisos de SageMaker AI IAM, consulteCómo utilizar las funciones de ejecución de la SageMaker IA.

Si administra su propia política de permiso, debe incluir los siguientes permisos:

Service-linked rol

Auto Scaling usa el rol vinculado a un servicio AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint. Este rol vinculado a servicio concede a Application Auto Scaling permiso para describir las alarmas de sus políticas, supervisar los niveles de capacidad actual y escalar el recurso de destino. Este rol se crea automáticamente para usted. Para que la creación automática de roles se realice correctamente, debe disponer de permisos para la acción iam:CreateServiceLinkedRole. Para obtener más información, consulte las Service-linked funciones en la Guía del usuario de Application Auto Scaling.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Información general sobre las políticas de escalado automático

Configuración del escalado automático de modelos con la consola