Cabeçalhos de relatório comuns Relatórios de resumo Relatórios detalhados

Detalhes dos relatórios e detalhamento dos dados

SageMaker HyperPodOs relatórios de uso da fornecem duas lentes distintas para analisar o consumo de recursos computacionais: relatórios resumidos para alocação de custos e relatórios detalhados para auditoria granular. Os relatórios de resumo agregam o uso de todo o cluster por equipe ou namespace, destacando tendências na computação alocada em comparação com a computação tomada emprestada em recursos de GPU, CPU e NeuronCore. Os relatórios detalhados analisam tarefas individuais, expondo determinadas métricas, como janelas de execução, status de tarefas e utilização de classes prioritárias. Nesta seção, detalhamos a estrutura desses relatórios, compreendemos as principais métricas e demonstramos como administradores e equipes financeiras podem comparar tendências resumidas com dados em nível de tarefa para validar a precisão da atribuição de custos, resolver discrepâncias e otimizar a infraestrutura compartilhada.

Cabeçalhos de relatório comuns

Os relatórios detalhados e de resumo incluem os seguintes metadados para contextualizar os dados de uso:

ClusterName: o nome do cluster EKS-orchestrated Hyperpod em que os recursos foram consumidos.
Tipo: a categoria de relatório (Summary Utilization Report ou Detailed Utilization Report).
Dados gerados: quando o relatório foi criado (p. ex., 2025-04-18).
Intervalo de tempo (UTC): o período coberto (p. ex., 2025-04-16 to 2025-04-18).
Períodos de dados perdidos: lacunas na coleta de dados devido a tempo de inatividade do cluster ou problemas de monitoramento (p. ex., 2025-04-16 00:00:00 to 2025-04-19 00:00:00).

Relatórios de resumo

Os relatórios resumidos fornecem uma visão geral diária de alto nível do consumo de recursos computacionais e dos tipos de instância teams/namespaces, distinguindo entre utilização alocada (cota reservada) e emprestada (pool emprestado). Esses relatórios são ideais para geração de faturas, declaração de atribuição de custos ou previsão de capacidade.

Exemplo: um relatório de resumo pode mostrar que a Equipe A usou 200 horas de GPU (170 da cota alocada e 30 tomadas emprestadas).

Veja abaixo um detalhamento estruturado das principais colunas em um relatório de resumo:

Data: a data do uso relatado (p. ex., 2025-04-18).
Namespace: o namespace do Kubernetes associado à equipe (p. ex., hyperpod-ns-ml-team).
Equipe: The Owning team/department (por exemplo,ml-team).
Tipo de instância: a instância de computação usada (p. ex., ml.g5.4xlarge).
Total/Allocated/Borrowed Utilização (horas): o detalhamento do uso da GPU, CPU ou Neuron Core por categoria.

Em que:
- Utilização total = Utilização alocada + Utilização tomada emprestada
- A utilização alocada é a CPU real da GPU, ou horas de NeuronCore que uma equipe usou, restrita a 100% da respectiva cota alocada.
- A utilização tomada emprestada refere-se às horas reais de GPU, CPU ou NeuronCore que uma equipe usou além da cota alocada, extraídas do grupo de clusters compartilhado com base nas regras de prioridade da governança de tarefas e na disponibilidade de recursos.

Exemplo: 72 horas de GPU no total (48 alocadas e 24 tomadas emprestadas).

nota

Somente a utilização total é exibida para namespaces não gerenciados pela governança de tarefas.

Relatórios detalhados

Os relatórios detalhados oferecem visibilidade em nível forense sobre o uso de computação, detalhando o consumo de recursos por tarefa e expondo métricas granulares, como períodos de execução de tarefas, status (p. ex., êxito e falha) e uso de classes prioritárias. Esses relatórios são ideais para a validação de discrepâncias de faturamento ou para garantir a conformidade com as políticas de governança.

Veja abaixo um detalhamento estruturado das principais colunas em um relatório detalhado:

Data: a data do uso relatado (p. ex., 2025-04-18).
Período Start/End: janela de execução exata (UTC) da tarefa. (por exemplo,19:54:34)
Namespace: o namespace do Kubernetes associado à equipe (p. ex., hyperpod-ns-ml-team).
Equipe: The Owning team/department (por exemplo,ml-team).
Tarefa: O identificador do job/pod (por exemplo,pytorchjob-ml-pytorch-job-2p5zt-db686).
Instância: a instância de computação usada (p. ex., ml.g5.4xlarge).
Status: resultado da tarefa (bem-sucedida, com falha e antecipada).
Utilização total: consumo total (horas e contagem de instâncias) de recursos de GPU, CPU ou NeuronCore.
Classe prioritária: o nível de prioridade atribuído (p. ex., prioridade de treinamento).

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Relatórios de uso de computação

Gerar um relatório