

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Dimensionamento automatico del provisioning simultaneo per un endpoint serverless
<a name="serverless-endpoints-autoscale"></a>

 Amazon SageMaker AI esegue automaticamente la scalabilità interna o orizzontale degli endpoint serverless su richiesta. Per gli endpoint serverless con Simultaneità con provisioning, puoi utilizzare Dimensionamento automatico dell’applicazione per ridimensionare con aumento o diminuzione Simultaneità con provisioning in base al tuo profilo di traffico, ottimizzando in tal modo i costi. 

 Di seguito sono riportati i prerequisiti per il dimensionamento automatico di Simultaneità con provisioning su endpoint serverless: 
+ [Registrazione di un modello](#serverless-endpoints-autoscale-register)
+ [Definizione di una policy di dimensionamento](#serverless-endpoints-autoscale-define)
+ [Applicazione di una policy di scalabilità](#serverless-endpoints-autoscale-apply)

 Prima di poter utilizzare il dimensionamento automatico, devi aver già distribuito un modello su un endpoint serverless con Simultaneità con provisioning. I modelli distribuiti sono indicati come [varianti di produzione](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProductionVariant.html). Vedi [Creare una configurazione endpoint](serverless-endpoints-create-config.md) e [Creare un endpoint](serverless-endpoints-create-endpoint.md) per ulteriori informazioni sulla distribuzione di un modello su un endpoint serverless con Simultaneità con provisioning. Per specificare i parametri e i valori di target per una policy di dimensionamento, devi configurare una policy di dimensionamento di monitoraggio. Per ulteriori informazioni su come definire una policy di dimensionamento, vedi [Definizione di una policy di dimensionamento](#serverless-endpoints-autoscale-define). Dopo la registrazione di un modello e la definizione di una policy di dimensionamento, applica la policy di dimensionamento al modello registrato. Per informazioni su come applicare la policy di dimensionamento, vedi [Applicazione di una policy di scalabilità](#serverless-endpoints-autoscale-apply). 

 [Per dettagli su altri prerequisiti e componenti utilizzati con la scalabilità automatica, consulta la sezione nella documentazione relativa alla scalabilità automatica AI. [Prerequisiti per il dimensionamento automatico](endpoint-auto-scaling-prerequisites.md) SageMaker ](endpoint-auto-scaling.md) 

## Registrazione di un modello
<a name="serverless-endpoints-autoscale-register"></a>

 Per aggiungere la scalabilità automatica a un endpoint serverless con Provisioned Concurrency, devi prima registrare il tuo modello (variante di produzione) utilizzando la nostra API Application Auto Scaling. AWS CLI 

### Registrare un modello (AWS CLI)
<a name="serverless-endpoints-autoscale-register-cli"></a>

 Per registrare il modello, utilizzate il `register-scalable-target` AWS CLI comando con i seguenti parametri: 
+  `--service-namespace`: imposta questo valore su `sagemaker`. 
+  `--resource-id` – L'identificatore di risorsa per il modello (in particolare, la variante di produzione). Per questo parametro, il tipo di risorsa è `endpoint` e l'identificatore univoco è il nome della variante di produzione. Ad esempio, `endpoint/MyEndpoint/variant/MyVariant`. 
+  `--scalable-dimension`: imposta questo valore su `sagemaker:variant:DesiredProvisionedConcurrency`. 
+  `--min-capacity` – Il numero minimo di Simultaneità con provisioning per il modello. Imposta `--min-capacity` su almeno 1. Deve essere uguale o inferiore al valore specificato per `--max-capacity`. 
+  `--max-capacity` – Il numero massimo di Simultaneità con provisioning da abilitare con il dimensionamento automatico dell’applicazione. Imposta `--max-capacity` su un minimo di 1. Deve essere maggiore o uguale al valore specificato per `--min-capacity`. 

 L'esempio seguente mostra come registrare un modello denominato `MyVariant` che viene dimensionato in modo dinamico per avere un valore di Simultaneità con provisioning da 1 a 10: 

```
aws application-autoscaling register-scalable-target \
    --service-namespace sagemaker \
    --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \
    --resource-id endpoint/MyEndpoint/variant/MyVariant \
    --min-capacity 1 \
    --max-capacity 10
```

### Registrazione di un modello (API di dimensionamento automatico dell’applicazione)
<a name="serverless-endpoints-autoscale-register-api"></a>

 Per registrare il modello, usa l’azione API `RegisterScalableTarget` Application Auto Scaling con i parametri seguenti: 
+  `ServiceNamespace`: imposta questo valore su `sagemaker`. 
+  `ResourceId` – L'identificatore di risorsa per il modello (in particolare, la variante di produzione). Per questo parametro, il tipo di risorsa è `endpoint` e l'identificatore univoco è il nome della variante di produzione. Ad esempio, `endpoint/MyEndpoint/variant/MyVariant`. 
+  `ScalableDimension`: imposta questo valore su `sagemaker:variant:DesiredProvisionedConcurrency`. 
+  `MinCapacity` – Il numero minimo di Simultaneità con provisioning per il modello. Imposta `MinCapacity` su almeno 1. Deve essere uguale o inferiore al valore specificato per `MaxCapacity`. 
+  `MaxCapacity` – Il numero massimo di Simultaneità con provisioning da abilitare con il dimensionamento automatico dell’applicazione. Imposta `MaxCapacity` su un minimo di 1. Deve essere maggiore o uguale al valore specificato per `MinCapacity`. 

 L'esempio seguente mostra come registrare un modello denominato `MyVariant` che viene dimensionato in modo dinamico per avere un valore di Simultaneità con provisioning da 1 a 10: 

```
POST / HTTP/1.1
Host: autoscaling.us-east-2.amazonaws.com
Accept-Encoding: identity
X-Amz-Target: AnyScaleFrontendService.RegisterScalableTarget
X-Amz-Date: 20160506T182145Z
User-Agent: aws-cli/1.10.23 Python/2.7.11 Darwin/15.4.0 botocore/1.4.8
Content-Type: application/x-amz-json-1.1
Authorization: AUTHPARAMS

{
    "ServiceNamespace": "sagemaker",
    "ResourceId": "endpoint/MyEndPoint/variant/MyVariant",
    "ScalableDimension": "sagemaker:variant:DesiredProvisionedConcurrency",
    "MinCapacity": 1,
    "MaxCapacity": 10
}
```

## Definizione di una policy di dimensionamento
<a name="serverless-endpoints-autoscale-define"></a>

 Per specificare i parametri e i valori di target per una policy di dimensionamento, configuri una policy di dimensionamento di monitoraggio dei target. Definisci la policy di dimensionamento come un blocco JSON in un file di testo. È quindi possibile utilizzare quel file di testo quando si richiama l'API AWS CLI Application Auto Scaling. Per definire rapidamente una policy di dimensionamento di monitoraggio della destinazione per un endpoint serverless, utilizza il parametro predefinito `SageMakerVariantProvisionedConcurrencyUtilization`. 

```
{
    "TargetValue": 0.5,
    "PredefinedMetricSpecification": 
    {
        "PredefinedMetricType": "SageMakerVariantProvisionedConcurrencyUtilization"
    },
    "ScaleOutCooldown": 1,
    "ScaleInCooldown": 1
}
```

## Applicazione di una policy di scalabilità
<a name="serverless-endpoints-autoscale-apply"></a>

 Dopo aver registrato il modello, puoi applicare una policy di dimensionamento al tuo endpoint serverless con Simultaneità con provisioning. Consulta [Applicazione di una policy di dimensionamento di monitoraggio della destinazione](#serverless-endpoints-autoscale-apply-target) per applicare una policy di dimensionamento di monitoraggio della destinazione da te definita. Se il flusso del traffico verso l'endpoint serverless segue una routine prevedibile, anziché applicare una policy di dimensionamento basata sul monitoraggio della destinazione, potresti voler pianificare le azioni di scalabilità in momenti specifici. Per ulteriori informazioni sulle azioni di pianificazione del dimensionamento, consulta [Dimensionamento pianificato](#serverless-endpoints-autoscale-apply-scheduled). 

### Applicazione di una policy di dimensionamento di monitoraggio della destinazione
<a name="serverless-endpoints-autoscale-apply-target"></a>

 Puoi utilizzare l' Console di gestione AWS API Application Auto Scaling AWS CLI o l'API Application Auto Scaling per applicare una policy di scalabilità di tracciamento del target al tuo endpoint serverless con Provisioned Concurrency. 

#### Applica una politica di ridimensionamento del target-tracking (AWS CLI)
<a name="serverless-endpoints-autoscale-apply-target-cli"></a>

 Per applicare una policy di dimensionamento al tuo modello, utilizza il comando `put-scaling-policy` dell’ AWS CLI con i parametri seguenti: 
+  `--policy-name` – Il nome della policy di dimensionamento. 
+  `--policy-type` – Impostare questo valore su `TargetTrackingScaling`. 
+  `--resource-id` – L'identificatore di risorse per la variante. Per questo parametro, il tipo di risorsa è `endpoint` e l'identificatore univoco è il nome della variante. Ad esempio, `endpoint/MyEndpoint/variant/MyVariant`. 
+  `--service-namespace` – Impostare questo valore su `sagemaker`. 
+  `--scalable-dimension` – Impostare questo valore su `sagemaker:variant:DesiredProvisionedConcurrency`. 
+  `--target-tracking-scaling-policy-configuration` – La configurazione di una policy di dimensionamento con monitoraggio delle destinazioni da utilizzare per il modello. 

 L'esempio seguente mostra come applicare una policy di dimensionamento con monitoraggio della destinazione denominata `MyScalingPolicy` a un modello denominato `MyVariant`. La configurazione della policy viene salvata in un file denominato `scaling-policy.json`. 

```
aws application-autoscaling put-scaling-policy \
    --policy-name MyScalingPolicy \
    --policy-type TargetTrackingScaling \
    --service-namespace sagemaker \
    --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \
    --resource-id endpoint/MyEndpoint/variant/MyVariant \
    --target-tracking-scaling-policy-configuration file://[file-localtion]/scaling-policy.json
```

#### Applica una policy di dimensionamento con monitoraggio della destinazione (API di Application Auto Scaling)
<a name="serverless-endpoints-autoscale-apply-target-api"></a>

 Per applicare una policy di dimensionamento al modello, utilizzare l'azione dell’API `PutScalingPolicy` Application Auto Scaling con i parametri seguenti: 
+  `PolicyName` – Il nome della policy di dimensionamento. 
+  `PolicyType` – Impostare questo valore su `TargetTrackingScaling`. 
+  `ResourceId` – L'identificatore di risorse per la variante. Per questo parametro, il tipo di risorsa è `endpoint` e l'identificatore univoco è il nome della variante. Ad esempio, `endpoint/MyEndpoint/variant/MyVariant`. 
+  `ServiceNamespace` – Impostare questo valore su `sagemaker`. 
+  `ScalableDimension` – Impostare questo valore su `sagemaker:variant:DesiredProvisionedConcurrency`. 
+  `TargetTrackingScalingPolicyConfiguration` – La configurazione di una policy di dimensionamento con monitoraggio delle destinazioni da utilizzare per il modello. 

 L'esempio seguente mostra come applicare una policy di dimensionamento con monitoraggio della destinazione denominata `MyScalingPolicy` a un modello denominato `MyVariant`. La configurazione della policy viene salvata in un file denominato `scaling-policy.json`. 

```
POST / HTTP/1.1
Host: autoscaling.us-east-2.amazonaws.com
Accept-Encoding: identity
X-Amz-Target: AnyScaleFrontendService.PutScalingPolicy
X-Amz-Date: 20160506T182145Z
User-Agent: aws-cli/1.10.23 Python/2.7.11 Darwin/15.4.0 botocore/1.4.8
Content-Type: application/x-amz-json-1.1
Authorization: AUTHPARAMS

{
    "PolicyName": "MyScalingPolicy",
    "ServiceNamespace": "sagemaker",
    "ResourceId": "endpoint/MyEndpoint/variant/MyVariant",
    "ScalableDimension": "sagemaker:variant:DesiredProvisionedConcurrency",
    "PolicyType": "TargetTrackingScaling",
    "TargetTrackingScalingPolicyConfiguration": 
    {
        "TargetValue": 0.5,
        "PredefinedMetricSpecification": 
        {
            "PredefinedMetricType": "SageMakerVariantProvisionedConcurrencyUtilization"
        }
    }
}
```

#### Applica una politica di ridimensionamento del tracciamento degli obiettivi (Console di gestione AWS)
<a name="serverless-endpoints-autoscale-apply-target-console"></a>

 Per applicare una politica di ridimensionamento del tracciamento degli obiettivi con: Console di gestione AWS

1.  Accedi alla [console Amazon SageMaker AI](https://console.aws.amazon.com/sagemaker/). 

1.  Nel pannello di navigazione, scegli **Inferenza**. 

1.  Scegli **Endpoint** per visualizzare un elenco di tutti gli endpoint. 

1.  Scegli l'endpoint per cui applicare la policy di dimensionamento. Apparirà una pagina con le impostazioni dell'endpoint, con i modelli (variante di produzione) elencati nella sezione **Impostazioni di runtime dell'endpoint**. 

1.  Seleziona la variante di produzione a cui desideri applicare la policy di dimensionamento e scegli **Configurazione di Auto Scaling**. Viene visualizzata la pagina **Configura il dimensionamento automatico della variante**.   
![Screenshot della finestra di dialogo Configura il dimensionamento automatico della variante nella console.](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/serverless-endpoints-variant-autoscaling.png)

1.  Immetti i valori minimo e massimo della Simultaneità con provisioning nei campi **Simultaneità allocata minima** e **Simultaneità allocata massima**, rispettivamente, nella sezione **Scalabilità automatica della variante**. La simultaneità allocata minima deve essere minore o uguale alla simultaneità allocata massima. 

1.  Inserisci il valore target nel campo **Valore target** per il parametro target, `SageMakerVariantProvisionedConcurrencyUtilization`. 

1.  (Facoltativo) Inserisci i valori di disattivazione del dimensionamento verticale e orizzontale (in secondi), rispettivamente, nei campi **Disattivazione dimensionamento verticale** e **Disattivazione dimensionamento orizzontale**. 

1.  (Facoltativo) Seleziona **Disabilita il dimensionamento verticale** se non desideri che il dimensionamento automatico elimini l'istanza quando il traffico diminuisce. 

1.  Seleziona **Salva**. 

### Dimensionamento pianificato
<a name="serverless-endpoints-autoscale-apply-scheduled"></a>

 Se il traffico verso il tuo endpoint serverless con Simultaneità con provisioning segue uno schema di routine, potresti voler pianificare le azioni di pianificazione del dimensionamento in momenti specifici, per ridimensionare o aumentare la Simultaneità con provisioning. È possibile utilizzare AWS CLI o Application Auto Scaling per pianificare le azioni di ridimensionamento. 

#### Ridimensionamento pianificato (AWS CLI)
<a name="serverless-endpoints-autoscale-apply-scheduled-cli"></a>

 Per applicare una politica di scalabilità al modello, utilizzate il comando `put-scheduled-action` AWS CLI; con i seguenti parametri: 
+  `--schedule-action-name` – Il nome dell’azione di dimensionamento. 
+  `--schedule` – Un'espressione Cron che specifica l’ora di inizio e fine dell'azione di dimensionamento con una pianificazione ricorrente. 
+  `--resource-id` – L'identificatore di risorse per la variante. Per questo parametro, il tipo di risorsa è `endpoint` e l'identificatore univoco è il nome della variante. Ad esempio, `endpoint/MyEndpoint/variant/MyVariant`. 
+  `--service-namespace` – Impostare questo valore su `sagemaker`. 
+  `--scalable-dimension` – Impostare questo valore su `sagemaker:variant:DesiredProvisionedConcurrency`. 
+  `--scalable-target-action` – La destinazione dell'azione di dimensionamento. 

 Nell'esempio seguente viene mostrato come aggiungere un'azione di dimensionamento denominata `MyScalingAction` a un modello denominato `MyVariant` in una pianificazione ricorrente. Alla pianificazione specificata (ogni giorno alle 12:15 UTC), se l'attuale Simultaneità con provisioning è inferiore al valore indicato per `MinCapacity`. Il dimensionamento automatico dell’applicazione aumenta la simultaneità con provisioning fino al valore specificato da `MinCapacity`. 

```
aws application-autoscaling put-scheduled-action \
    --scheduled-action-name 'MyScalingAction' \
    --schedule 'cron(15 12 * * ? *)' \
    --service-namespace sagemaker \
    --resource-id endpoint/MyEndpoint/variant/MyVariant \
    --scalable-dimension sagemaker:variant:DesiredProvisionedConcurrency \
    --scalable-target-action 'MinCapacity=10'
```

#### Dimensionamento pianificato (API di dimensionamento automatico dell’applicazione)
<a name="serverless-endpoints-autoscale-apply-scheduled-api"></a>

 Per applicare una policy di dimensionamento al modello, utilizzare l'azione dell’API `PutScheduledAction` Application Auto Scaling con i parametri seguenti: 
+  `ScheduleActionName` – Il nome dell’azione di dimensionamento. 
+  `Schedule` – Un'espressione Cron che specifica l’ora di inizio e fine dell'azione di dimensionamento con una pianificazione ricorrente. 
+  `ResourceId` – L'identificatore di risorse per la variante. Per questo parametro, il tipo di risorsa è `endpoint` e l'identificatore univoco è il nome della variante. Ad esempio, `endpoint/MyEndpoint/variant/MyVariant`. 
+  `ServiceNamespace` – Impostare questo valore su `sagemaker`. 
+  `ScalableDimension` – Impostare questo valore su `sagemaker:variant:DesiredProvisionedConcurrency`. 
+  `ScalableTargetAction` – La destinazione dell'azione di dimensionamento. 

 Nell'esempio seguente viene mostrato come aggiungere un'azione di dimensionamento denominata `MyScalingAction` a un modello denominato `MyVariant` in una pianificazione ricorrente. Alla pianificazione specificata (ogni giorno alle 12:15 UTC), se l'attuale Simultaneità con provisioning è inferiore al valore indicato per `MinCapacity`. Il dimensionamento automatico dell’applicazione aumenta la simultaneità con provisioning fino al valore specificato da `MinCapacity`. 

```
POST / HTTP/1.1
Host: autoscaling.us-east-2.amazonaws.com
Accept-Encoding: identity
X-Amz-Target: AnyScaleFrontendService.PutScheduledAction
X-Amz-Date: 20160506T182145Z
User-Agent: aws-cli/1.10.23 Python/2.7.11 Darwin/15.4.0 botocore/1.4.8
Content-Type: application/x-amz-json-1.1
Authorization: AUTHPARAMS

{
    "ScheduledActionName": "MyScalingAction",
    "Schedule": "cron(15 12 * * ? *)",
    "ServiceNamespace": "sagemaker",
    "ResourceId": "endpoint/MyEndpoint/variant/MyVariant",
    "ScalableDimension": "sagemaker:variant:DesiredProvisionedConcurrency",
    "ScalableTargetAction": "MinCapacity=10"
        }
    }
}
```