Configurar um cluster do Slurm no Studio - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Configurar um cluster do Slurm no Studio

As instruções a seguir descrevem como configurar um cluster HyperPod Slurm no Studio.

  1. Crie um domínio ou tenha um pronto. Para ter informações sobre como criar um domínio, consulte Guia para se configurar com o Amazon SageMaker AI.

  2. (Opcional) Crie e anexe um volume personalizado FSx para o Lustre ao seu domínio.

    1. Certifique-se de que seu sistema de arquivos FSx Lustre exista na mesma VPC do domínio pretendido e esteja em uma das sub-redes presentes no domínio.

    2. Você pode seguir as instruções em Como adicionar um sistema de arquivos personalizado a um domínio.

  3. (Opcional) Recomendamos que você adicione tags aos seus clusters para garantir um fluxo de trabalho mais tranquilo. Para obter informações sobre como adicionar tags, consulte Como Editar um SageMaker HyperPod cluster atualizar seu cluster usando o console de SageMaker IA.

    1. Marque seu sistema de arquivos FSx for Lustre no seu domínio do Studio. Isso ajudará você a identificar o sistema de arquivos ao iniciar seus espaços do Studio. Para fazer isso, adicione a seguinte tag ao seu cluster para identificá-lo com o ID do FSx sistema de arquivos,. fs-id

      Chave da tag = “hyperpod-cluster-filesystem”; valor da tag = “fs-id”.

    2. Associe seu espaço de trabalho do Amazon Managed Grafana ao seu domínio do Studio. Isso será usado para você se vincular rapidamente ao seu espaço de trabalho do Grafana diretamente do seu cluster no Studio. Para fazer isso, adicione a seguinte tag ao seu cluster para identificá-lo com o ID do seu espaço de trabalho no Grafana: ws-id.

      Chave da tag = “grafana-workspace”; valor da tag = “ws-id”.

  4. Adicione a permissão a seguir ao seu perfil de execução.

    Para obter informações sobre funções de execução de SageMaker IA e como editá-las, consulteCompreendendo as permissões de espaço e os perfis de execução do domínio.

    Para saber como anexar políticas a um grupo ou usuário do IAM, consulte Adicionar e remover permissões de identidade do IAM.

    JSON
    { "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "ssm:StartSession", "ssm:TerminateSession" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:CreateCluster", "sagemaker:ListClusters" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "cloudwatch:PutMetricData", "cloudwatch:GetMetricData" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeCluster", "sagemaker:DescribeClusterNode", "sagemaker:ListClusterNodes", "sagemaker:UpdateCluster", "sagemaker:UpdateClusterSoftware" ], "Resource": "arn:aws:sagemaker:us-east-1:111122223333:cluster/*" } ] }
  5. Adicione uma tag a esse perfil do IAM, com a chave de tag = “SSMSessionRunAs” e o valor de tag = “os user”. Aqui, o os user é o mesmo usuário que você configurou para o cluster do Slurm. Gerencie o acesso aos SageMaker HyperPod clusters em uma função do IAM ou nível de usuário usando o recurso Run As no AWS Systems ManagerAgent (SSM Agent). Com esse recurso, você pode iniciar cada sessão do SSM usando o usuário do sistema operacional associado ao perfil ou usuário do IAM.

    Para ter informações sobre como adicionar tags ao seu perfil de execução, consulte Marcar perfis do IAM.

  6. Ative o suporte a “Executar como” para nós gerenciados do Linux e macOS. As configurações de “Executar como” abrangem toda a conta e são necessárias para que todas as sessões do SSM sejam iniciadas com êxito.

  7. (Opcional) Restringir a visualização de tarefas no Studio para clusters do Slurm. Para ter informações sobre tarefas visíveis no Studio, consulte Tarefas.

No Amazon SageMaker Studio, você pode navegar para visualizar seus clusters em HyperPod clusters (em Compute).

Restringir a visualização de tarefas no Studio para clusters do Slurm

Você pode aplicar restrições para que os usuários visualizem apenas as tarefas do Slurm que estão autorizados a visualizar, sem exigir a entrada manual de namespaces ou outras verificações de permissão. A restrição é aplicada com base no perfil do IAM dos usuários, oferecendo uma experiência de usuário simplificada e segura. A seção a seguir fornece informações sobre como restringir a visualização de tarefas no Studio de clusters do Slurm. Para ter informações sobre tarefas visíveis no Studio, consulte Tarefas.

Por padrão, todos os usuários do Studio podem visualizar, gerenciar e interagir com todas as tarefas de cluster do Slurm. Para restringir isso, você pode gerenciar o acesso aos SageMaker HyperPod clusters em uma função do IAM ou nível de usuário usando o recurso Run As no AWS Systems ManagerAgent (SSM Agent).

Você pode fazer isso marcando os perfis do IAM com identificadores específicos, como nome de usuário ou grupo. Quando um usuário acessa o Studio, o Session Manager usa o recurso “Executar como” executar comandos como uma conta de usuário específica do Slurm que corresponda às tags do perfil do IAM. A configuração do Slurm pode ser definida para restringir a visibilidade de tarefas com base na conta do usuário. A interface de usuário do Studio filtrará automaticamente as tarefas visíveis para essa conta de usuário específica quando os comandos forem executados por meio do recurso Executar como. Após a configuração, cada usuário que assumir o perfil com os identificadores especificados terá essas tarefas do Slurm filtradas com base na configuração do Slurm. Para ter informações sobre como adicionar tags ao seu perfil de execução, consulte Marcar perfis do IAM.