As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
SageMaker HyperPod métricas de cluster
A Amazon SageMaker HyperPod (SageMaker HyperPod) publica várias métricas em 9 categorias distintas em seu espaço de trabalho do Amazon Managed Service for Prometheus. Nem todas as métricas são habilitadas por padrão ou exibidas no espaço de trabalho do Amazon Managed Grafana. A tabela a seguir mostra quais métricas são ativadas por padrão quando você instala o complemento de observabilidade, quais categorias têm métricas adicionais que podem ser habilitadas para informações mais granulares do cluster e onde elas aparecem no espaço de trabalho do Amazon Managed Grafana.
| Categoria métrica | Habilitada por padrão? | Métricas avançadas adicionais disponíveis? | Disponível em quais painéis do Grafana? |
|---|---|---|---|
| Métricas de treinamento | Sim | Sim | Treinamento |
| Métricas de inferência | Sim | Não | Inferência |
| Métricas de governança de tarefas | Não | Sim | Nenhum. Consulte seu espaço de trabalho do Amazon Managed Service for Prometheus para criar seu próprio painel. |
| Métrica de ajuste de escala | Não | Sim | Nenhum. Consulte seu espaço de trabalho do Amazon Managed Service for Prometheus para criar seu próprio painel. |
| Métricas de cluster | Sim | Sim | Cluster |
| Métricas de instância | Sim | Sim | Cluster |
| Métricas de computação acelerada | Sim | Sim | Tarefa, cluster |
| Métricas de rede | Não | Sim | Cluster |
| Sistema de arquivos | Sim | Não | Sistema de arquivos |
As tabelas a seguir descrevem as métricas disponíveis para monitorar seu SageMaker HyperPod cluster, organizadas por categoria.
Métricas de treinamento
Use essas métricas para monitorar o desempenho das tarefas de treinamento executadas no SageMaker HyperPod cluster.
| Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica |
|---|---|---|---|
| Métricas do Kubeflow | https://github.com/kubeflow/treinador |
Sim | Kubeflow |
| Métricas de pod do Kubernetes | https://github.com/kubernetes/kube-state-metrics |
Sim | Kubernetes |
training_uptime_percentage |
Porcentagem do tempo de treinamento fora do tamanho total da janela. | Não | SageMaker HyperPod operador de treinamento |
training_manual_recovery_count |
Número total de reinicializações manuais realizadas na tarefa. | Não | SageMaker HyperPod operador de treinamento |
training_manual_downtime_ms |
Tempo total em milissegundos em que a tarefa ficou inativa devido a intervenções manuais. | Não | SageMaker HyperPod operador de treinamento |
training_auto_recovery_count |
Número total de recuperações automáticas. | Não | SageMaker HyperPod operador de treinamento |
training_auto_recovery_downtime |
Tempo total de sobrecarga da infraestrutura em milissegundos durante a recuperação de falhas. | Não | SageMaker HyperPod operador de treinamento |
training_fault_count |
Número total de falhas encontradas durante o treinamento. | Não | SageMaker HyperPod operador de treinamento |
training_fault_type_count |
Distribuição de falhas por tipo. | Não | SageMaker HyperPod operador de treinamento |
training_fault_recovery_time_ms |
Tempo de recuperação em milissegundos para cada tipo de falha. | Não | SageMaker HyperPod operador de treinamento |
training_time_ms |
Tempo total em milissegundos gasto no treinamento real. | Não | SageMaker HyperPod operador de treinamento |
Métricas de inferência
Use essas métricas para monitorar o desempenho das tarefas de inferência no SageMaker HyperPod cluster.
| Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica |
|---|---|---|---|
model_invocations_total |
Número total de solicitações de invocação ao modelo. | Sim | SageMaker HyperPod operador de inferência |
model_errors_total |
Número total de erros durante a invocação do modelo. | Sim | SageMaker HyperPod operador de inferência |
model_concurrent_requests |
Solicitações simultâneas de modelo ativas. | Sim | SageMaker HyperPod operador de inferência |
model_latency_milliseconds |
Latência de invocação do modelo em milissegundos. | Sim | SageMaker HyperPod operador de inferência |
model_ttfb_milliseconds |
Tempo de modelagem até a latência do primeiro byte em milissegundos. | Sim | SageMaker HyperPod operador de inferência |
| TGI | Estas métricas podem ser usadas para monitorar o desempenho da TGI, ajustar a escala da implantação automaticamente e ajudar a identificar gargalos. Para obter uma lista detalhada de métricas, consulte https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. |
Sim | Contêiner do modelo |
| LMI | Estas métricas podem ser usadas para monitorar o desempenho da LMI e ajudar a identificar gargalos. Para obter uma lista detalhada de métricas, consulte https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md. |
Sim | Contêiner do modelo |
Métricas de governança de tarefas
Use essas métricas para monitorar a governança de tarefas e a alocação de recursos no SageMaker HyperPod cluster.
| Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica |
|---|---|---|---|
| Kueue | Consulte https://kueue.sigs.k8s. io/docs/reference/metrics |
Não | Kueue |
Métrica de ajuste de escala
Use essas métricas para monitorar o comportamento e o desempenho do auto-scaling no cluster. SageMaker HyperPod
| Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica |
|---|---|---|---|
| Métricas do operador KEDA | Consulte https://keda. sh/docs/2.17/integrations/prometheus/#operator |
Não | Kubernetes Event-driven Autoscaler (KEDA) |
| Métricas de webhook do KEDA | Consulte https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks |
Não | Kubernetes Event-driven Autoscaler (KEDA) |
| Métricas do KEDA Metrics Server | Consulte https://keda. sh/docs/2.17/integrations/prometheus/#metrics -servidor |
Não | Kubernetes Event-driven Autoscaler (KEDA) |
Métricas de cluster
Use estas métricas para monitorar a integridade geral do cluster e a alocação de recursos.
| Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica |
|---|---|---|---|
| Integridade do cluster | Métricas do servidor de API do Kubernetes. Consulte https://kubernetes. io/docs/reference/instrumentation/metrics |
Sim | Kubernetes |
| Kubestate | Veja https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources |
Limitado | Kubernetes |
| KubeState Avançado | Veja https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources |
Não | Kubernetes |
Métricas de instância
Use estas métricas para monitorar o desempenho e a integridade de instâncias individuais.
| Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica |
|---|---|---|---|
| Métricas de nó | Veja https://github.com/prometheus/node_exporter? tabulação = readme-ov-file # enabled-by-default |
Sim | Kubernetes |
| Métricas de contêiner | Métricas de contêiner expostas pelo Cadvisor. Consulte o https://github.com/google/consultor. |
Sim | Kubernetes |
Métricas de computação acelerada
Use estas métricas para monitorar o desempenho, a integridade e a utilização de dispositivos individuais de computação acelerada no cluster.
nota
Quando o particionamento de GPU com MIG (GPU de várias instâncias) está ativado em seu cluster, as métricas do DCGM fornecem automaticamente granularidade em nível de partição para monitorar instâncias MIG individuais. Cada partição MIG é exposta como um dispositivo de GPU separado com suas próprias métricas de temperatura, energia, utilização de memória e atividade computacional. Isso permite que você acompanhe o uso e a integridade dos recursos de cada partição de GPU de forma independente, permitindo o monitoramento preciso das cargas de trabalho executadas em recursos fracionários da GPU. Para obter mais informações sobre como configurar o particionamento de GPU, consulte. Usando partições de GPU na Amazon SageMaker HyperPod
| Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica |
|---|---|---|---|
| GPU da NVIDIA | Métricas do DCGM. Veja https://github.com/NVIDIA/dcgm- -metrics-included.csv. exporter/blob/main/etc/dcp |
Limitado |
Data Center GPU Manager (DCGM) da NVIDIA |
|
GPU da NVIDIA (avançada) |
Métricas do DCGM comentadas no seguinte arquivo CSV: https://github.com/NVIDIA/dcgm--metrics-included.csv exporter/blob/main/etc/dcp |
Não |
Data Center GPU Manager (DCGM) da NVIDIA |
| AWSEstágio | Métricas do Neuron. Veja https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html#. neuron-monitor-nc-counters |
Não | AWSMonitor de neurônios |
Métricas de rede
Use estas métricas para monitorar o desempenho e a integridade dos Elastic Fabric Adapters (EFA) no cluster.
| Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica |
|---|---|---|---|
| EFA | Veja https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. |
Não | Elastic Fabric Adapter |
Métricas do sistema de arquivos
| Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica |
|---|---|---|---|
| Sistema de arquivos | Métricas do Amazon FSx for Lustre da Amazon CloudWatch: | Sim | Amazon FSx para Lustre |