Detalhes dos relatórios e detalhamento dos dados - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Detalhes dos relatórios e detalhamento dos dados

SageMaker HyperPodOs relatórios de uso da fornecem duas lentes distintas para analisar o consumo de recursos computacionais: relatórios resumidos para alocação de custos e relatórios detalhados para auditoria granular. Os relatórios de resumo agregam o uso de todo o cluster por equipe ou namespace, destacando tendências na computação alocada em comparação com a computação tomada emprestada em recursos de GPU, CPU e NeuronCore. Os relatórios detalhados analisam tarefas individuais, expondo determinadas métricas, como janelas de execução, status de tarefas e utilização de classes prioritárias. Nesta seção, detalhamos a estrutura desses relatórios, compreendemos as principais métricas e demonstramos como administradores e equipes financeiras podem comparar tendências resumidas com dados em nível de tarefa para validar a precisão da atribuição de custos, resolver discrepâncias e otimizar a infraestrutura compartilhada.

Cabeçalhos de relatório comuns

Os relatórios detalhados e de resumo incluem os seguintes metadados para contextualizar os dados de uso:

  • ClusterName: o nome do cluster Hyperpod orquestrado pelo EKS em que os recursos foram consumidos.

  • Tipo: a categoria de relatório (Summary Utilization Report ou Detailed Utilization Report).

  • Dados gerados: quando o relatório foi criado (p. ex., 2025-04-18).

  • Intervalo de tempo (UTC): o período coberto (p. ex., 2025-04-16 to 2025-04-18).

  • Períodos de dados perdidos: lacunas na coleta de dados devido a tempo de inatividade do cluster ou problemas de monitoramento (p. ex., 2025-04-16 00:00:00 to 2025-04-19 00:00:00).

Relatórios de resumo

Os relatórios de resumo oferecem uma visão geral diária simplificada do consumo de recursos de computação entre equipes/namespaces e tipos de instância, distinguindo entre utilização alocada (cota reservada) e tomada emprestada (grupo emprestado). Esses relatórios são ideais para geração de faturas, declaração de atribuição de custos ou previsão de capacidade.

Exemplo: um relatório de resumo pode mostrar que a Equipe A usou 200 horas de GPU (170 da cota alocada e 30 tomadas emprestadas).

Veja abaixo um detalhamento estruturado das principais colunas em um relatório de resumo:

  • Data: a data do uso relatado (p. ex., 2025-04-18).

  • Namespace: o namespace do Kubernetes associado à equipe (p. ex., hyperpod-ns-ml-team).

  • Equipe: The Owning team/department (por exemplo,ml-team).

  • Tipo de instância: a instância de computação usada (p. ex., ml.g5.4xlarge).

  • Total/Allocated/BorrowedUtilização (horas): o detalhamento do uso da GPU, CPU ou Neuron Core por categoria.

    Em que:

    • Utilização total = Utilização alocada + Utilização tomada emprestada

    • A utilização alocada é a CPU real da GPU, ou horas de NeuronCore que uma equipe usou, restrita a 100% da respectiva cota alocada.

    • A utilização tomada emprestada refere-se às horas reais de GPU, CPU ou NeuronCore que uma equipe usou além da cota alocada, extraídas do grupo de clusters compartilhado com base nas regras de prioridade da governança de tarefas e na disponibilidade de recursos.

Exemplo: 72 horas de GPU no total (48 alocadas e 24 tomadas emprestadas).

nota

Somente a utilização total é exibida para namespaces não gerenciados pela governança de tarefas.

Relatórios detalhados

Os relatórios detalhados oferecem visibilidade em nível forense sobre o uso de computação, detalhando o consumo de recursos por tarefa e expondo métricas granulares, como períodos de execução de tarefas, status (p. ex., êxito e falha) e uso de classes prioritárias. Esses relatórios são ideais para a validação de discrepâncias de faturamento ou para garantir a conformidade com as políticas de governança.

Veja abaixo um detalhamento estruturado das principais colunas em um relatório detalhado:

  • Data: a data do uso relatado (p. ex., 2025-04-18).

  • Início/fim do período: período de execução exata (UTC) da tarefa (p. ex., 19:54:34).

  • Namespace: o namespace do Kubernetes associado à equipe (p. ex., hyperpod-ns-ml-team).

  • Equipe: The Owning team/department (por exemplo,ml-team).

  • Tarefa: o identificador do trabalho/pod (p. ex., pytorchjob-ml-pytorch-job-2p5zt-db686).

  • Instância: a instância de computação usada (p. ex., ml.g5.4xlarge).

  • Status: resultado da tarefa (bem-sucedida, com falha e antecipada).

  • Utilização total: consumo total (horas e contagem de instâncias) de recursos de GPU, CPU ou NeuronCore.

  • Classe prioritária: o nível de prioridade atribuído (p. ex., prioridade de treinamento).