Relatórios de uso para atribuição de custos em SageMaker HyperPod - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Relatórios de uso para atribuição de custos em SageMaker HyperPod

Os relatórios de uso em clusters SageMaker HyperPod orquestrados pelo EKS fornecem visibilidade granular do consumo de recursos computacionais. O recurso permite que as organizações implementem uma atribuição transparente de custos, alocando custos de cluster a equipes, projetos ou departamentos com base no uso real. Ao monitorar métricas como GPU/CPU horas e utilização do Neuron Core - capturadas em agregados de nível de equipe e detalhamentos específicos de tarefas - os relatórios de uso complementam a funcionalidade de governança de tarefas, garantindo uma distribuição justa de custos em clusters compartilhados HyperPod de vários inquilinos por meio de:

  • Eliminar suposições na alocação de custos.

  • Vincular as despesas diretamente ao consumo mensurável de recursos.

  • Impor a prestação de contas baseada no uso em ambientes de infraestrutura compartilhada.

Pré-requisitos

Para usar esse recurso:

  • Você precisa:

    • Um SageMaker HyperPod ambiente ativo com um cluster orquestrado pelo EKS em execução.

    • (Altamente recomendado) De uma governança de tarefas configurada com cotas de computação e regras de prioridade. Para obter instruções de configuração, consulte Configuração da governança de tarefas.

  • Familiarizar-se com estes conceitos básicos:

    • Cota de computação alocada: recursos reservados para uma equipe com base em cotas predefinidas nas respectivas políticas de governança de tarefas. Essa é a capacidade garantida para as workloads da equipe.

    • Computação tomada emprestada: recursos ociosos do pool de clusters compartilhados que as equipes podem usar temporariamente além da cota alocada. A computação tomada emprestada é atribuída dinamicamente com base em regras de prioridade nas políticas de governança de tarefas e na disponibilidade de recursos não utilizados.

    • Uso de computação: a medição dos recursos (GPU, CPU e horas de NeuronCore) consumidos por uma equipe, rastreada como:

      • Utilização alocada: uso de acordo com a cota da equipe.

      • Utilização tomada emprestada: uso além da cota, extraído do grupo compartilhado.

    • Atribuição de custos: o processo de alocar os custos do cluster às equipes com base no uso real de computação, incluindo os recursos consumidos de acordo com a cota predefinida e os recursos usados temporariamente do grupo compartilhado do cluster além da cota.

Tipos de relatório

HyperPodOs relatórios de uso da fornecem granularidade operacional variável:

  • Os relatórios resumidos fornecem visibilidade do uso da computação em toda a organização, agregando o total de horas GPU/CPU/Neuron principais por equipe (namespace) e distinguindo entre uso regular (recursos da cota alocada de uma equipe) e computação emprestada (capacidade de estouro de pools compartilhados).

  • Os relatórios detalhados oferecem detalhamento em nível de tarefa por equipe, rastreando as horas de computação exatas gastas na execução de tarefas específicas, como tarefas antecipadas, padrões de utilização por hora e alocações específicas ao namespace.

Importante

HyperPod os relatórios de uso rastreiam a utilização da computação em todos os namespaces do Kubernetes em um cluster, incluindo aqueles gerenciados pela Governança de Tarefas, namespaces padrão e namespaces criados fora da Governança de Tarefas (por exemplo, por meio de chamadas diretas à API do Kubernetes ou ferramentas externas). Esse monitoramento em nível de infraestrutura garante uma prestação de contas abrangente baseada no uso, evitando disparidades na atribuição de custos para clusters compartilhados, independentemente de como os namespaces são gerenciados.

Formatos e intervalo de tempo dos relatórios

Usando o script Python fornecido em Gerar relatórios, os administradores podem gerar relatórios de uso sob demanda nos formatos CSV ou PDF, selecionando intervalos de tempo que vão desde snapshots diários a janelas de tempo históricas de 180 dias (6 meses).

nota

Você pode configurar a janela de tempo histórica para se estender além do máximo padrão de 180 dias ao configurar a infraestrutura de relatórios. Para obter mais informações sobre como configurar o período de retenção de dados, consulte Instalar a infraestrutura do relatório de uso usando CloudFormation.

Casos de uso ilustrativos

Esse recurso aborda cenários críticos em AI/ML ambientes multilocatários, como:

  1. Alocação de custos para clusters compartilhados: um administrador gerencia um HyperPod cluster compartilhado por 20 equipes que treinam modelos generativos de IA. Usando um relatório de resumo de uso, ele analisa a utilização diária de GPU em 180 dias e descobre que a Equipe A consumiu 200 horas de GPU de um tipo específico de instância: 170 da cota alocada e 30 da computação tomada emprestada. Ele emite uma fatura para a Equipe A com base nesse uso relatado.

  2. Auditoria e resolução de disputas: uma equipe financeira questiona a precisão da atribuição de custos, citando inconsistências. O administrador pode exportar um relatório detalhado em nível de tarefa para auditar discrepâncias. Comparando carimbos de data/hora, tipos de instância e tarefas antecipadas no namespace da equipe, o relatório reconcilia de forma transparente os dados de uso contestados.