Alarmes e logs para rastrear métricas de endpoints assíncronos - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Alarmes e logs para rastrear métricas de endpoints assíncronos

Você pode monitorar o SageMaker AI usando o Amazon CloudWatch, que coleta dados brutos e os processa em métricas legíveis quase em tempo real. Como Amazon CloudWatch, você pode acessar as informações históricas e ter uma perspectiva melhor sobre o desempenho da aplicação web ou o do serviço. Para obter mais informações sobre o Amazon CloudWatch, consulte O que é o Amazon CloudWatch?

Monitoramento com CloudWatch

As métricas abaixo são uma lista completa de métricas para endpoints assíncronos e estão no namespace AWS/SageMaker. Qualquer métrica não listada abaixo não será publicada se o endpoint estiver habilitado para inferência assíncrona. Essas métricas incluem (mas não estão limitadas a):

  • OverheadLatency

  • Invocações

  • InvocationsPerInstance

Métricas gerais de endpoint

Essas métricas são as mesmas publicadas hoje para endpoints em tempo real. Para ter mais informações sobre outras métricas no Amazon CloudWatch, consulte Amazon SageMaker AI metrics in Amazon CloudWatch.

Nome da métrica Descrição Unidade/Estatísticas

Invocation4XXErrors

O número de solicitações em que o modelo retornou um código de resposta HTTP 4xx. Para cada resposta 4xx, 1 é enviado; caso contrário, 0 é enviado.

Unidades: nenhuma

Estatísticas válidas: média e soma

Invocation5XXErrors

O número de solicitações InvokeEndpoint em que o modelo retornou um código de resposta HTTP 5xx. Para cada resposta 5xx, 1 é enviado; caso contrário, 0 é enviado.

Unidades: nenhuma

Estatísticas válidas: média e soma

ModelLatency

O intervalo de tempo necessário para que um modelo responda, conforme visualizado no SageMaker AI. Esse intervalo inclui os tempos de comunicação locais necessários para enviar a solicitação e buscar a resposta do contêiner de um modelo, bem como o tempo gasto para concluir a inferência no contêiner.

Unidade: microssegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

Métricas de endpoint de inferência assíncrona

Essas métricas são publicadas para endpoints habilitados para inferência assíncrona. Todas as métricas a seguir são publicadas com uma dimensão EndpointName.

Nome da métrica Descrição Unidade/Estatísticas

ApproximateBacklogSize

O número de itens na fila de um endpoint que estão sendo processados no momento ou que ainda precisam ser processados.

Unidades: contagem

Estatísticas válidas: média, máx. e mín.

ApproximateBacklogSizePerInstance

Número de itens na fila dividido pelo número de instâncias atrás de um endpoint. Essa métrica é usada principalmente para configurar o ajuste de escala automático de aplicações para um endpoint habilitado para assíncrono.

Unidades: contagem

Estatísticas válidas: média, máx. e mín.

ApproximateAgeOfOldestRequest

Idade da solicitação mais antiga na fila.

Unidades: segundos

Estatísticas válidas: média, máx. e mín.

HasBacklogWithoutCapacity

O valor dessa métrica é 1 quando há solicitações na fila, mas nenhuma instância atrás do endpoint. O valor é 0 em todos os outros momentos. Você pode usar essa métrica para escalar automaticamente seu endpoint a partir de zero instâncias ao receber uma nova solicitação na fila.

Unidade: contagem

Estatística válida: média

Todas as métricas a seguir são publicadas com as dimensões EndpointName e VariantName.

Nome da métrica Descrição Unidade/Estatísticas

RequestDownloadFailures

Quando ocorre uma falha de inferência devido a um problema no download da solicitação do Amazon S3.

Unidades: contagem

Estatística válida: soma

ResponseUploadFailures

Quando ocorre uma falha de inferência devido a um problema no upload da resposta para o Amazon S3.

Unidades: contagem

Estatística válida: soma

NotificationFailures

Quando ocorreu um problema ao publicar notificações.

Unidades: contagem

Estatística válida: soma

RequestDownloadLatency

Tempo total para fazer download da carga útil da solicitação.

Unidade: microssegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

ResponseUploadLatency

Tempo total para carregar a carga útil da resposta.

Unidade: microssegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

ExpiredRequests

Número de solicitações na fila com falha devido ao alcance da TTL de solicitação especificada.

Unidades: contagem

Estatística válida: soma

InvocationFailures

Se uma invocação falhar por qualquer motivo.

Unidades: contagem

Estatística válida: soma

InvocationsProcesssed

Número de invocações assíncronas processadas pelo endpoint.

Unidades: contagem

Estatística válida: soma

TimeInBacklog

Tempo total em que a solicitação ficou na fila antes de ser processada. Isso não inclui o tempo real de processamento (ou seja, tempo de download, tempo de upload, latência do modelo).

Unidade: milissegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

TotalProcessingTime

O horário em que a solicitação de inferência foi recebida pelo SageMaker AI até o momento em que o processo da solicitação foi concluído. Isso inclui o tempo no backlog e o tempo para carregar e enviar notificações de resposta, se houver.

Unidade: milissegundos

Estatísticas válidas: média, soma, mín., máx., contagem de amostras

A inferência assíncrona do Amazon SageMaker também inclui métricas em nível de host. Para ter informações sobre métricas em nível de host, consulte Métricas de trabalhos e endpoints do SageMaker AI.

Logs

Além dos modelos de log de contêiner que são publicados no Amazon CloudWatch na sua conta, você também recebe um log de nova plataforma para rastrear e depurar solicitações de inferência.

Os novos logs são publicados no Grupo de logs do Endpoint:

/aws/sagemaker/Endpoints/[EndpointName]

O nome do fluxo de logs consiste de:

[production-variant-name]/[instance-id]/data-log.

Linhas de log contêm a ID de inferência da solicitação para que os erros possam ser facilmente mapeados para uma solicitação específica.