

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Amazon SageMaker AI e Application Auto Scaling
<a name="services-that-can-integrate-sagemaker"></a>

Você pode escalar variantes de endpoint de SageMaker IA, simultaneidade provisionada para endpoints sem servidor e componentes de inferência usando políticas de escalabilidade de rastreamento de metas, políticas de escalonamento de etapas e escalabilidade programada. 

Use as informações a seguir para ajudá-lo a integrar a SageMaker IA com o Application Auto Scaling. 

## Função vinculada ao serviço criada para IA SageMaker
<a name="integrate-service-linked-role-sagemaker"></a>

A função vinculada ao serviço a seguir é criada automaticamente em você Conta da AWS ao registrar recursos de SageMaker IA como alvos escaláveis com o Application Auto Scaling. Essa função permite que o Application Auto Scaling realize as operações suportadas em sua conta. Para obter mais informações, consulte [Funções vinculadas ao serviço necessárias para o Application Auto Scaling](application-auto-scaling-service-linked-roles.md).
+ `AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint`

## Principal de serviço primário usado pela função vinculada ao serviço
<a name="integrate-service-principal-sagemaker"></a>

A função vinculada ao serviço na seção anterior pode ser assumida apenas pelo principal de serviço primário autorizado pelas relações de confiança definidas para a função. A função vinculada ao serviço usada pelo Application Auto Scaling concede acesso aos seguintes principais de serviço: 
+ `sagemaker.application-autoscaling.amazonaws.com`

## Registrando variantes de endpoint de SageMaker IA como alvos escaláveis com o Application Auto Scaling
<a name="integrate-register-sagemaker"></a>

O Application Auto Scaling exige uma meta escalável antes que você possa criar políticas de escalabilidade ou ações programadas para um modelo de SageMaker IA (variante). Um destino escalável é um recurso cuja escala pode ser aumentada ou reduzida horizontalmente pelo Application Auto Scaling. Os destinos escaláveis são identificados exclusivamente pela combinação de ID de recurso, dimensão escalável e namespace. 

Se você configurar o escalonamento automático usando o console de SageMaker IA, a SageMaker IA registrará automaticamente uma meta escalável para você. 

Se quiser configurar o escalonamento automático usando a AWS CLI ou uma das, você pode usar AWS SDKs as seguintes opções:
+ AWS CLI: 

  Chame o [register-scalable-target](https://docs.aws.amazon.com/cli/latest/reference/application-autoscaling/register-scalable-target.html)comando para uma variante do produto. O exemplo a seguir registra a contagem de instâncias desejada para uma variante de produto chamada `my-variant`, rodando em no endpoint `my-endpoint`, com capacidade mínima de uma instância e capacidade máxima de oito instâncias.

  ```
  aws application-autoscaling register-scalable-target \
    --service-namespace sagemaker \
    --scalable-dimension sagemaker:variant:DesiredInstanceCount \
    --resource-id endpoint/my-endpoint/variant/my-variant \
    --min-capacity 1 \
    --max-capacity 8
  ```

  Se obtiver êxito, esse comando retornará o ARN do destino escalável.

  ```
  {
      "ScalableTargetARN": "arn:aws:application-autoscaling:region:account-id:scalable-target/1234abcd56ab78cd901ef1234567890ab123"
  }
  ```
+ AWS SDK: 

  Chame a operação [RegisterScalableTarget](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_RegisterScalableTarget.html) e forneça `ResourceId`, `ScalableDimension`, `ServiceNamespace`, `MinCapacity` e `MaxCapacity` como parâmetros. 

## Registrar a simultaneidade provisionada de endpoints sem servidor como destinos escaláveis com o Application Auto Scaling
<a name="integrate-register-provisioned-concurrency"></a>

O Application Auto Scaling também requer um destino escalável para você poder criar políticas de escalação ou ações programadas para a simultaneidade provisionada de endpoints sem servidor.

Se você configurar o escalonamento automático usando o console de SageMaker IA, a SageMaker IA registrará automaticamente uma meta escalável para você. 

Caso contrário, use um dos seguintes métodos para registrar o destino escalável:
+ AWS CLI: 

  Chame o [register-scalable-target](https://docs.aws.amazon.com/cli/latest/reference/application-autoscaling/register-scalable-target.html)comando para uma variante do produto. O exemplo a seguir registra a simultaneidade provisionada de uma variante de produto denominada `my-variant`, em execução no endpoint `my-endpoint`, com capacidade mínima de 1 instância e capacidade máxima de 10 instâncias.

  ```
  aws application-autoscaling register-scalable-target \
    --service-namespace sagemaker \
    --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \
    --resource-id endpoint/my-endpoint/variant/my-variant \
    --min-capacity 1 \
    --max-capacity 10
  ```

  Se obtiver êxito, esse comando retornará o ARN do destino escalável.

  ```
  {
      "ScalableTargetARN": "arn:aws:application-autoscaling:region:account-id:scalable-target/1234abcd56ab78cd901ef1234567890ab123"
  }
  ```
+ AWS SDK: 

  Chame a operação [RegisterScalableTarget](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_RegisterScalableTarget.html) e forneça `ResourceId`, `ScalableDimension`, `ServiceNamespace`, `MinCapacity` e `MaxCapacity` como parâmetros. 

## Registrar componentes de inferência como destinos escaláveis com o Application Auto Scaling
<a name="integrate-register-inference-components"></a>

O Application Auto Scaling também requer um destino escalável para que você possa criar políticas de escalabilidade ou ações programadas para componentes de inferência.
+ AWS CLI: 

  Chame o [register-scalable-target](https://docs.aws.amazon.com/cli/latest/reference/application-autoscaling/register-scalable-target.html)comando para um componente de inferência. O exemplo a seguir inscreve o número desejado de cópias para um componente de inferência chamado `my-inference-component`, com uma capacidade mínima de 0 cópia e uma capacidade máxima de 3 cópias.

  ```
  aws application-autoscaling register-scalable-target \
    --service-namespace sagemaker \
    --scalable-dimension sagemaker:inference-component:DesiredCopyCount \
    --resource-id inference-component/my-inference-component \
    --min-capacity 0 \
    --max-capacity 3
  ```

  Se obtiver êxito, esse comando retornará o ARN do destino escalável.

  ```
  {
      "ScalableTargetARN": "arn:aws:application-autoscaling:region:account-id:scalable-target/1234abcd56ab78cd901ef1234567890ab123"
  }
  ```
+ AWS SDK: 

  Chame a operação [RegisterScalableTarget](https://docs.aws.amazon.com/autoscaling/application/APIReference/API_RegisterScalableTarget.html) e forneça `ResourceId`, `ScalableDimension`, `ServiceNamespace`, `MinCapacity` e `MaxCapacity` como parâmetros. 

## Recursos relacionados
<a name="sagemaker-related-resources"></a>

Se você está apenas começando a usar o Application Auto Scaling, você pode encontrar mais informações úteis sobre a escalabilidade de seus recursos de IA no *Amazon SageMaker SageMaker AI Developer Guide*:
+ [Dimensione automaticamente os modelos de SageMaker IA da Amazon](https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html)
+ [Automatically scale Provisioned Concurrency for a serverless endpoint](https://docs.aws.amazon.com/sagemaker/latest/dg/serverless-endpoints-autoscale.html)
+ [Set auto scaling policies for multi-model endpoint deployments](https://docs.aws.amazon.com/sagemaker/latest/dg/multi-model-endpoints-autoscaling.html)
+ [Autoscale an asynchronous endpoint](https://docs.aws.amazon.com/sagemaker/latest/dg/async-inference-autoscale.html)

**nota**  
Em 2023, a SageMaker IA introduziu novos recursos de inferência baseados em endpoints de inferência em tempo real. Você cria um endpoint de SageMaker IA com uma configuração de endpoint que define o tipo de instância e a contagem inicial de instâncias para o endpoint. Em seguida, crie um componente de inferência, que é um objeto de hospedagem de SageMaker IA que você pode usar para implantar um modelo em um endpoint. Para obter informações sobre como escalar componentes de inferência, consulte A [Amazon SageMaker AI adiciona novos recursos de inferência para ajudar a reduzir os custos e a latência de implantação do modelo básico e](https://aws.amazon.com/blogs/aws/amazon-sagemaker-adds-new-inference-capabilities-to-help-reduce-foundation-model-deployment-costs-and-latency/) [reduzir os custos de implantação do modelo em 50%, em média, usando os recursos mais recentes da Amazon SageMaker AI](https://aws.amazon.com/blogs/machine-learning/reduce-model-deployment-costs-by-50-on-average-using-sagemakers-latest-features/) no blog. AWS 