

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# CloudWatch Métricas para implantações de endpoints de vários modelos
<a name="multi-model-endpoint-cloudwatch-metrics"></a>

A Amazon SageMaker AI fornece métricas para endpoints para que você possa monitorar a taxa de acerto do cache, o número de modelos carregados e os tempos de espera do modelo para carregamento, download e upload em um endpoint multimodelo. Algumas das métricas são diferentes para endpoints multimodelo suportados por CPU e GPU, então as seções a seguir descrevem as CloudWatch métricas da Amazon que você pode usar para cada tipo de endpoint multimodelo.

Para obter mais informações sobre métricas, consulte **Métricas de carregamento do modelo para endpoint multimodelo** e **Métricas de instâncias de modelos para endpoint multimodelo** em [Métricas de SageMaker IA da Amazon na Amazon CloudWatch](monitoring-cloudwatch.md). Métricas por modelo não são compatíveis. 

## CloudWatch métricas para endpoints multimodelo suportados por CPU
<a name="multi-model-endpoint-cloudwatch-metrics-cpu"></a>

Você pode monitorar as seguintes métricas em endpoints multimodelo com compatibilidade com CPU:

O `AWS/SageMaker` namespace inclui as seguintes métricas de carregamento do modelo a partir de chamadas para. [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html)

As métricas estão disponíveis a uma frequência de 1 minuto.

Para obter informações sobre por quanto tempo as CloudWatch métricas são retidas, consulte [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)a *Amazon CloudWatch API Reference*.

**Métricas de carregamento de modelos de endpoint multimodelo**


| Métrica | Description | 
| --- | --- | 
| ModelLoadingWaitTime  | O intervalo de tempo em que uma solicitação de invocação esperou que o modelo de destino fosse baixado, carregado, ou os dois, para realizar a inferência. <br />Unidade: microssegundos <br />Estatísticas válidas: média, soma, mín., máx., contagem de amostras  | 
| ModelUnloadingTime  | O intervalo de tempo necessário para descarregar o modelo por meio da chamada de API `UnloadModel` do contêiner. <br />Unidade: microssegundos <br />Estatísticas válidas: média, soma, mín., máx., contagem de amostras  | 
| ModelDownloadingTime | O intervalo de tempo necessário para baixar o modelo do Amazon Simple Storage Service (Amazon S3).<br />Unidade: microssegundos<br />Estatísticas válidas: média, soma, mín., máx., contagem de amostras  | 
| ModelLoadingTime  | O intervalo de tempo necessário para carregar o modelo com a chamada de API `LoadModel` do contêiner.<br />Unidade: microssegundos <br />Estatísticas válidas: média, soma, mín., máx., contagem de amostras  | 
| ModelCacheHit  | O número de solicitações `InvokeEndpoint` enviadas para o endpoint multimodelo para o qual o modelo já foi carregado.<br />A estatística Média mostra a proporção de solicitações para as quais o modelo já foi carregado.<br />Unidades: nenhuma<br />Estatísticas válidas: média, soma, contagem de amostras | 

**Dimensões para métricas de carregamento de modelos de endpoint multimodelo**


| Dimensão | Description | 
| --- | --- | 
| EndpointName, VariantName | Filtra as métricas de invocação de endpoint para uma `ProductionVariant` do endpoint e da variante especificados. | 

Os namespaces `/aws/sagemaker/Endpoints` incluem as seguintes métricas de instância em chamadas para [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html).

As métricas estão disponíveis a uma frequência de 1 minuto.

Para obter informações sobre por quanto tempo as CloudWatch métricas são retidas, consulte [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)a *Amazon CloudWatch API Reference*.

**Métricas de instâncias de modelos para endpoint multimodelo**


| Métrica | Description | 
| --- | --- | 
| LoadedModelCount  | O número de modelos carregados nos contêineres do endpoint multimodelo. Esta métrica é emitida para cada instância.<br />A estatística Média com um período de 1 minuto informa o número médio de modelos carregados por instância.<br />A estatística Soma informa o número total de modelos carregados em todas as instâncias no endpoint.<br />Os modelos que essa métrica rastreia não são necessariamente exclusivos, porque um modelo pode ser carregado em vários contêineres no endpoint.<br />Unidades: nenhuma<br />Estatísticas válidas: média, soma, mín., máx., contagem de amostras | 
| CPUUtilization  | A soma da utilização de cada núcleo de CPU individual. A utilização da CPU de cada faixa de núcleo é de 0 a 100. Por exemplo, se houver quatro CPUs, o `CPUUtilization` intervalo é de 0% a 400%.<br />Para variantes de endpoint, o valor é a soma da utilização de CPU dos contêineres principais e complementares na instância.<br />Unidades: percentual | 
| MemoryUtilization | O percentual de memória usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%.<br />Para variantes de endpoint, o valor é a soma da utilização de memória dos contêineres principais e complementares na instância.<br />Unidades: percentual | 
| DiskUtilization | A porcentagem de espaço em disco usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%.<br />Para variantes de endpoint, o valor é a soma da utilização do espaço em disco dos contêineres primário e complementar na instância.<br />Unidades: percentual | 

## CloudWatch métricas para implantações de endpoints multimodelo de GPU
<a name="multi-model-endpoint-cloudwatch-metrics-gpu"></a>

Você pode monitorar as seguintes métricas em endpoints multimodelo com compatibilidade com GPU:

O `AWS/SageMaker` namespace inclui as seguintes métricas de carregamento do modelo a partir de chamadas para. [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html)

As métricas estão disponíveis a uma frequência de 1 minuto.

Para obter informações sobre por quanto tempo as CloudWatch métricas são retidas, consulte [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)a *Amazon CloudWatch API Reference*.

**Métricas de carregamento de modelos de endpoint multimodelo**


| Métrica | Description | 
| --- | --- | 
| ModelLoadingWaitTime  | O intervalo de tempo em que uma solicitação de invocação esperou que o modelo de destino fosse baixado, carregado, ou os dois, para realizar a inferência. <br />Unidade: microssegundos <br />Estatísticas válidas: média, soma, mín., máx., contagem de amostras  | 
| ModelUnloadingTime  | O intervalo de tempo necessário para descarregar o modelo por meio da chamada de API `UnloadModel` do contêiner. <br />Unidade: microssegundos <br />Estatísticas válidas: média, soma, mín., máx., contagem de amostras  | 
| ModelDownloadingTime | O intervalo de tempo necessário para baixar o modelo do Amazon Simple Storage Service (Amazon S3).<br />Unidade: microssegundos<br />Estatísticas válidas: média, soma, mín., máx., contagem de amostras  | 
| ModelLoadingTime  | O intervalo de tempo necessário para carregar o modelo com a chamada de API `LoadModel` do contêiner.<br />Unidade: microssegundos <br />Estatísticas válidas: média, soma, mín., máx., contagem de amostras  | 
| ModelCacheHit  | O número de solicitações `InvokeEndpoint` enviadas para o endpoint multimodelo para o qual o modelo já foi carregado.<br />A estatística Média mostra a proporção de solicitações para as quais o modelo já foi carregado.<br />Unidades: nenhuma<br />Estatísticas válidas: média, soma, contagem de amostras | 

**Dimensões para métricas de carregamento de modelos de endpoint multimodelo**


| Dimensão | Description | 
| --- | --- | 
| EndpointName, VariantName | Filtra as métricas de invocação de endpoint para uma `ProductionVariant` do endpoint e da variante especificados. | 

Os namespaces `/aws/sagemaker/Endpoints` incluem as seguintes métricas de instância em chamadas para [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_InvokeEndpoint.html).

As métricas estão disponíveis a uma frequência de 1 minuto.

Para obter informações sobre por quanto tempo as CloudWatch métricas são retidas, consulte [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)a *Amazon CloudWatch API Reference*.

**Métricas de instâncias de modelos para endpoint multimodelo**


| Métrica | Description | 
| --- | --- | 
| LoadedModelCount  | O número de modelos carregados nos contêineres do endpoint multimodelo. Esta métrica é emitida para cada instância.<br />A estatística Média com um período de 1 minuto informa o número médio de modelos carregados por instância.<br />A estatística Soma informa o número total de modelos carregados em todas as instâncias no endpoint.<br />Os modelos que essa métrica rastreia não são necessariamente exclusivos, porque um modelo pode ser carregado em vários contêineres no endpoint.<br />Unidades: nenhuma<br />Estatísticas válidas: média, soma, mín., máx., contagem de amostras | 
| CPUUtilization  | A soma da utilização de cada núcleo de CPU individual. A utilização da CPU de cada faixa de núcleo é de 0 a 100. Por exemplo, se houver quatro CPUs, o `CPUUtilization` intervalo é de 0% a 400%.<br />Para variantes de endpoint, o valor é a soma da utilização de CPU dos contêineres principais e complementares na instância.<br />Unidades: percentual | 
| MemoryUtilization | O percentual de memória usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%.<br />Para variantes de endpoint, o valor é a soma da utilização de memória dos contêineres principais e complementares na instância.<br />Unidades: percentual | 
| GPUUtilization | O percentual de unidades de GPU usadas pelos contêineres em uma instância. O valor pode variar entre o intervalo de 0 a 100 e é multiplicado pelo número de. GPUs Por exemplo, se houver quatro GPUs, o `GPUUtilization` intervalo é de 0% a 400%.<br />Para variantes de endpoint, o valor é a soma da utilização de GPU dos contêineres principais e complementares na instância.<br />Unidades: percentual | 
| GPUMemoryUtilization | O percentual de memória de GPU usada pelos contêineres em uma instância. O intervalo de valores é de 0 a 100 e é multiplicado pelo número de. GPUs Por exemplo, se houver quatro GPUs, o `GPUMemoryUtilization` intervalo será de 0% a 400%.<br />Para variantes de endpoint, o valor é a soma da utilização de memória de GPU dos contêineres principais e complementares na instância.<br />Unidades: percentual | 
| DiskUtilization | A porcentagem de espaço em disco usada pelos contêineres em uma instância. Esse intervalo de valores é de 0% a 100%.<br />Para variantes de endpoint, o valor é a soma da utilização do espaço em disco dos contêineres primário e complementar na instância.<br />Unidades: percentual | 