Observabilidade - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Observabilidade

Monitoramento padrão do Kubernetes

Você pode monitorar o Spaces usando ferramentas padrão do Kubernetes, como kubectl descrição e registros. kubectl

Monitorando o status do espaço

# List all Spaces with status kubectl get workspace -A # Get detailed information about a specific Space kubectl describe workspace <workspace-name>

Visualizando registros de espaço

# View workspace container logs kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c workspace # View SSM agent sidecar logs (for remote IDE connectivity) kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c ssm-agent-sidecar # Follow logs in real-time kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c workspace -f

Entendendo as condições do espaço

Os espaços relatam quatro tipos de condições em seus status:

  • Disponível: True quando o Space estiver pronto para uso. Todos os recursos necessários (pods, serviços, armazenamento) estão funcionando e em bom estado.

  • Progredindo: True quando o Espaço está sendo criado, atualizado ou reconciliado. Transições para False uma vez estável.

  • Degradado: True quando erros são detectados com os recursos do Space. Verifique a mensagem de condição para obter detalhes.

  • Parado: True quando o status Espaço desejado é definido comoStopped. Os pods são encerrados, mas o armazenamento e a configuração são preservados.

CloudWatch Integração de registros

Você pode instalar o complemento de CloudWatch registro para enviar registros do Space ao Amazon CloudWatch Logs para gerenciamento e retenção centralizados de registros. Isso permite a agregação de registros em vários clusters e a integração com o CloudWatch Insights para consultas e análises. Todos os kubectl registros disponíveis acima podem ser consultados CloudWatch com este plug-in.

Referência: https://docs.aws.amazon.com/sagemaker/ latest/dg/sagemaker- hyperpod-eks-cluster-observability - cluster-cloudwatch-ci .html.

HyperPod Complemento de observabilidade

O complemento SageMaker HyperPod de observabilidade fornece painéis abrangentes para monitorar a utilização de recursos espaciais. Depois de instalar o complemento, você pode visualizar o uso da memória espacial e da CPU na guia Tarefas do HyperPod console, que exibe métricas nos painéis do Amazon Managed Grafana.

Referência: https://docs.aws.amazon.com/sagemaker/ latest/dg/sagemaker- hyperpod-observability-addon .html

Principais métricas disponíveis:

  • Utilização de CPU e memória por espaço

  • Métricas de GPU (se aplicável)