

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# CloudWatch Metriche per le implementazioni di endpoint multimodello
<a name="multi-model-endpoint-cloudwatch-metrics"></a>

Amazon SageMaker AI fornisce parametri per gli endpoint in modo da poter monitorare la frequenza di accesso alla cache, il numero di modelli caricati e i tempi di attesa dei modelli per il caricamento, il download e il caricamento su un endpoint multimodello. Alcune metriche sono diverse per gli endpoint multimodello basati su CPU e GPU, pertanto le sezioni seguenti descrivono i CloudWatch parametri di Amazon che puoi utilizzare per ogni tipo di endpoint multimodello.

Per maggiori informazioni sui parametri, consulta **Parametri di caricamento del modello di endpoint a più modelli** e **Parametri dell'istanza del modello di endpoint a più modelli** in [Metriche di Amazon SageMaker AI in Amazon CloudWatch](monitoring-cloudwatch.md). I parametri per modello non sono supportati. 

## CloudWatch metriche per endpoint multimodello supportati da CPU
<a name="multi-model-endpoint-cloudwatch-metrics-cpu"></a>

Puoi monitorare i seguenti parametri sugli endpoint a più modelli basati su CPU.

Il `AWS/SageMaker` namespace include il seguente modello di caricamento delle metriche dalle chiamate a. [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html)

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)*Amazon CloudWatch API* Reference.

**Parametri di caricamento del modello di endpoint multi-modello**


| Metrica | Description | 
| --- | --- | 
| ModelLoadingWaitTime  |  L'intervallo di tempo in cui una richiesta di invocazione ha atteso il download o il caricamento del modello di destinazione o entrambi per eseguire l'inferenza.  Unità: microsecondi  Statistiche valide: media, somma, minimo, massimo, numero di esempi   | 
| ModelUnloadingTime  |  L'intervallo di tempo necessario per scaricare il modello tramite la chiamata API `UnloadModel` del container.  Unità: microsecondi  Statistiche valide: media, somma, minimo, massimo, numero di esempi   | 
| ModelDownloadingTime |  L'intervallo di tempo impiegato per scaricare il modello da Amazon Simple Storage Service (Amazon S3). Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi   | 
| ModelLoadingTime  |  L'intervallo di tempo necessario per caricare il modello tramite la chiamata API `LoadModel` del container. Unità: microsecondi  Statistiche valide: media, somma, minimo, massimo, numero di esempi   | 
| ModelCacheHit  |  Numero di richieste `InvokeEndpoint` inviate all'endpoint a più modelli per cui il modello è già stato caricato. La statistica media mostra il rapporto tra richieste per le quali il modello è già stato caricato. Unità: nessuna Statistiche valide: media, somma, numero di esempi  | 

**Dimensioni per i parametri di caricamento del modello endpoint a più modelli**


| Dimensione | Description | 
| --- | --- | 
| EndpointName, VariantName |  Filtra i parametri di invocazione dell'endpoint per il valore `ProductionVariant` dell'endpoint e della variante specificati.  | 

Gli spazi dei nomi `/aws/sagemaker/Endpoints` includono i seguenti parametri di istanza dalle chiamate a [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html).

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)*Amazon CloudWatch API* Reference.

**Parametri dell'istanza del modello endpoint a più modelli**


| Metrica | Description | 
| --- | --- | 
| LoadedModelCount  |  Numero di modelli caricati nei container dell'endpoint a più modelli. Questo parametro viene emesso per istanza. La statistica media con un periodo di 1 minuto indica il numero medio di modelli caricati per istanza. La statistica somma indica il numero totale di modelli caricati in tutte le istanze dell'endpoint. I modelli tracciati da questo parametro non sono necessariamente univoci perché un modello potrebbe essere caricato in più container dell'endpoint. Unità: nessuna Statistiche valide: media, somma, minimo, massimo, numero di esempi  | 
| CPUUtilization  |  La somma dell'utilizzo di ogni singolo core della CPU. L'utilizzo della CPU di ciascun core è compreso tra 0 e 100. Ad esempio, se ce ne sono quattro CPUs, l'`CPUUtilization`intervallo è compreso tra 0% e 400%. Per le varianti dell'endpoint, il valore è la somma dell'utilizzo delle CPU dei container principali e supplementari sull'istanza. Unità: percentuale  | 
| MemoryUtilization |  Percentuale di memoria utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%. Per le varianti dell'endpoint, il valore è la somma dell'utilizzo di memoria dei container principali e supplementari sull'istanza. Unità: percentuale  | 
| DiskUtilization |  Percentuale di spazio su disco utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%. Per le varianti dell'endpoint, il valore è la somma dell'utilizzo dello spazio su disco dei container principali e supplementari sull'istanza. Unità: percentuale  | 

## CloudWatch metriche per le implementazioni di endpoint multimodello con GPU
<a name="multi-model-endpoint-cloudwatch-metrics-gpu"></a>

Puoi monitorare i seguenti parametri sugli endpoint a più modelli basati su GPU.

Il `AWS/SageMaker` namespace include il seguente modello di caricamento delle metriche dalle chiamate a. [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html)

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)*Amazon CloudWatch API* Reference.

**Parametri di caricamento del modello di endpoint multi-modello**


| Metrica | Description | 
| --- | --- | 
| ModelLoadingWaitTime  |  L'intervallo di tempo in cui una richiesta di invocazione ha atteso il download o il caricamento del modello di destinazione o entrambi per eseguire l'inferenza.  Unità: microsecondi  Statistiche valide: media, somma, minimo, massimo, numero di esempi   | 
| ModelUnloadingTime  |  L'intervallo di tempo necessario per scaricare il modello tramite la chiamata API `UnloadModel` del container.  Unità: microsecondi  Statistiche valide: media, somma, minimo, massimo, numero di esempi   | 
| ModelDownloadingTime |  L'intervallo di tempo impiegato per scaricare il modello da Amazon Simple Storage Service (Amazon S3). Unità: microsecondi Statistiche valide: media, somma, minimo, massimo, numero di esempi   | 
| ModelLoadingTime  |  L'intervallo di tempo necessario per caricare il modello tramite la chiamata API `LoadModel` del container. Unità: microsecondi  Statistiche valide: media, somma, minimo, massimo, numero di esempi   | 
| ModelCacheHit  |  Numero di richieste `InvokeEndpoint` inviate all'endpoint a più modelli per cui il modello è già stato caricato. La statistica media mostra il rapporto tra richieste per le quali il modello è già stato caricato. Unità: nessuna Statistiche valide: media, somma, numero di esempi  | 

**Dimensioni per i parametri di caricamento del modello endpoint a più modelli**


| Dimensione | Description | 
| --- | --- | 
| EndpointName, VariantName |  Filtra i parametri di invocazione dell'endpoint per il valore `ProductionVariant` dell'endpoint e della variante specificati.  | 

Gli spazi dei nomi `/aws/sagemaker/Endpoints` includono i seguenti parametri di istanza dalle chiamate a [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html).

I parametri sono disponibili a una frequenza di 1 minuto.

Per informazioni sulla durata di conservazione dei CloudWatch parametri, consulta [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)*Amazon CloudWatch API* Reference.

**Parametri dell'istanza del modello endpoint a più modelli**


| Metrica | Description | 
| --- | --- | 
| LoadedModelCount  |  Numero di modelli caricati nei container dell'endpoint a più modelli. Questo parametro viene emesso per istanza. La statistica media con un periodo di 1 minuto indica il numero medio di modelli caricati per istanza. La statistica somma indica il numero totale di modelli caricati in tutte le istanze dell'endpoint. I modelli tracciati da questo parametro non sono necessariamente univoci perché un modello potrebbe essere caricato in più container dell'endpoint. Unità: nessuna Statistiche valide: media, somma, minimo, massimo, numero di esempi  | 
| CPUUtilization  |  La somma dell'utilizzo di ogni singolo core della CPU. L'utilizzo della CPU di ciascun core è compreso tra 0 e 100. Ad esempio, se ce ne sono quattro CPUs, l'`CPUUtilization`intervallo è compreso tra 0% e 400%. Per le varianti dell'endpoint, il valore è la somma dell'utilizzo delle CPU dei container principali e supplementari sull'istanza. Unità: percentuale  | 
| MemoryUtilization |  Percentuale di memoria utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%. Per le varianti dell'endpoint, il valore è la somma dell'utilizzo di memoria dei container principali e supplementari sull'istanza. Unità: percentuale  | 
| GPUUtilization |  Percentuale di unità GPU utilizzata dai container su un'istanza. Il valore può variare tra 0 e 100 e viene moltiplicato per il numero di. GPUs Ad esempio, se ce ne sono quattro GPUs, l'`GPUUtilization`intervallo è compreso tra 0% e 400%. Per le varianti dell'endpoint, il valore è la somma dell'utilizzo delle GPU dei container principali e supplementari sull'istanza. Unità: percentuale  | 
| GPUMemoryUtilization |  Percentuale di memoria GPU utilizzata dai container su un'istanza. L'intervallo di valori è 0‐100 e viene moltiplicato per il numero di. GPUs Ad esempio, se ce ne sono quattro GPUs, l'`GPUMemoryUtilization`intervallo è 0%-400%. Per le varianti dell'endpoint, il valore è la somma dell'utilizzo di memoria GPU dei container principali e supplementari sull'istanza. Unità: percentuale  | 
| DiskUtilization |  Percentuale di spazio su disco utilizzata dai container su un'istanza. Questo intervallo di valori è compreso tra 0% e 100%. Per le varianti dell'endpoint, il valore è la somma dell'utilizzo dello spazio su disco dei container principali e supplementari sull'istanza. Unità: percentuale  | 