

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Test del caricamento della configurazione di scalabilità automatica
<a name="endpoint-scaling-loadtest"></a>

Esegui test di carico per scegliere una configurazione di dimensionamento che funzioni come desideri.

Le seguenti linee guida per i test di carico presumono che tu stia utilizzando una policy di dimensionamento che utilizzi la metrica di destinazione predefinita `SageMakerVariantInvocationsPerInstance`.

**Topics**
+ [Determinazione delle caratteristiche delle prestazioni](#endpoint-scaling-loadtest-variant)
+ [Calcolo del carico di destinazione](#endpoint-scaling-loadtest-calc)

## Determinazione delle caratteristiche delle prestazioni
<a name="endpoint-scaling-loadtest-variant"></a>

Esegui il test di carico per trovare il picco `InvocationsPerInstance` che la tua variante di produzione del modello è in grado di gestire e la latenza delle richieste, mentre aumenta la concorrenza.

Questo valore dipende dal tipo di istanza scelto, dai payload che i client inviati in genere dai client del modello e dalle prestazioni di eventuali dipendenze esterne del modello.

**Per individuare il picco requests-per-second (RPS) che la variante di produzione del modello è in grado di gestire e la latenza delle richieste**

1. Configura un endpoint con il modello utilizzando una singola istanza. Per informazioni su come configurare un endpoint, consulta [Implementa il modello su AI Hosting Services SageMaker](ex1-model-deployment.md#ex1-deploy-model).

1. Utilizza un test di carico per generare un numero sempre maggiore di richieste parallele e monitorare le richieste al secondo (RPS) e la latenza del modello nell'output dello strumento di test di carico. 
**Nota**  
È inoltre possibile monitorare requests-per-minute anziché RPS. In questo caso non moltiplicare per 60 nell'equazione per calcolare `SageMakerVariantInvocationsPerInstance` come riportato di seguito.

   Quando la latenza del modello aumenta o la percentuale di transazioni di successo diminuisce, questo è il livello di RPS massimo che il modello è in grado di gestire.

## Calcolo del carico di destinazione
<a name="endpoint-scaling-loadtest-calc"></a>

Dopo aver trovato le caratteristiche di prestazioni della variante, puoi determinare il livello massimo di RPS che dobbiamo consentire venga inviato a un'istanza. La soglia utilizzata per il dimensionamento deve essere inferiore a questo valore massimo. Utilizza la seguente equazione in combinazione con un test di carico per determinare il valore corretto per la metrica di destinazione `SageMakerVariantInvocationsPerInstance` nella tua configurazione di dimensionamento.

```
SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60
```

Dove `MAX_RPS` è il numero massimo di RPS che hai stabilito in precedenza e `SAFETY_FACTOR` è il fattore di sicurezza scelto per assicurare che i tuoi client non superino il livello massimo di RPS. Moltiplica per 60 per convertire da RPS invocations-per-minute a corrispondere alla CloudWatch metrica al minuto utilizzata dall' SageMaker IA per implementare la scalabilità automatica (non è necessario farlo se hai misurato invece di). requests-per-minute requests-per-second

**Nota**  
SageMaker L'intelligenza artificiale consiglia di iniziare il test con un valore di 0,5. `SAFETY_FACTOR` Verifica la tua configurazione di dimensionamento per garantire che funzioni nel modo previsto con il tuo modello, sia per aumentare sia per ridurre orizzontalmente il traffico dei clienti sull’endpoint.