As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Introdução ao SageMaker HyperPod uso do console de SageMaker IA
O tutorial a seguir demonstra como criar um novo SageMaker HyperPod cluster e configurá-lo com o Slurm por meio da interface do usuário do console de SageMaker IA. Após o tutorial, você criará um HyperPod cluster com três nós do Slurm, my-controller-group
my-login-group
, e. worker-group-1
Tópicos
Criar cluster
Para navegar até a página SageMaker HyperPod Clusters e escolher a orquestração do Slurm, siga estas etapas.
Abra o console do Amazon SageMaker AI em https://console.aws.amazon.com/sagemaker/
. -
Escolha HyperPod Clusters no painel de navegação esquerdo e, em seguida, Gerenciamento de Clusters.
-
Na página SageMaker HyperPod Clusters, escolha Criar HyperPod cluster.
-
No menu suspenso Criar HyperPod cluster, escolha Orchestrated by Slurm.
-
Na página de criação do cluster Slurm, você verá duas opções. Escolha a opção que melhor atenda às suas necessidades.
-
Configuração rápida - Para começar imediatamente com as configurações padrão, escolha Configuração rápida. Com essa opção, a SageMaker IA criará novos recursos, como VPC, sub-redes, grupos de segurança, bucket do Amazon S3, função do IAM e FSx para o Lustre no processo de criação do seu cluster.
-
Configuração personalizada - Para se integrar aos AWS recursos existentes ou ter requisitos específicos de rede, segurança ou armazenamento, escolha Configuração personalizada. Com essa opção, você pode optar por usar os recursos existentes ou criar novos, além de personalizar a configuração que melhor atenda às suas necessidades.
-
Configuração rápida
Na seção Configuração rápida, siga estas etapas para criar seu HyperPod cluster com a orquestração do Slurm.
Especifique um nome para o novo cluster. Você não pode alterar o nome após a criação do cluster.
Para adicionar um grupo de instâncias, escolha Adicionar grupo. Cada grupo de instâncias pode ser configurado de forma diferente e você pode criar um cluster heterogêneo que consiste em vários grupos de instâncias com vários tipos de instância. Para implantar um cluster, você deve adicionar pelo menos um grupo de instâncias.
Importante
Você pode adicionar um grupo de instâncias por vez. Para criar vários grupos de instâncias, repita o processo para cada grupo de instâncias.
Siga estas etapas para adicionar um grupo de instâncias.
-
Em Tipo de grupo de instâncias, escolha um tipo para seu grupo de instâncias. Para este tutorial, escolha Controller (head) for
my-controller-group
, Login formy-login-group
e Compute (worker) forworker-group-1
. -
Em Nome, especifique um nome para o grupo de instâncias. Para este tutorial, crie três grupos de instâncias chamados
my-controller-group
,my-login-group
, eworker-group-1
. -
Em Capacidade de instância, escolha a capacidade sob demanda ou um plano de treinamento para reservar seus recursos computacionais.
-
Em Tipo de instância, escolha a instância para o grupo de instâncias. Para este tutorial, selecione
ml.c5.xlarge
paramy-controller-group
,ml.m5.4xlarge
paramy-login-group
, eml.trn1.32xlarge
paraworker-group-1
.Escolha o tipo de instância com cotas suficientes em sua conta ou solicite cotas adicionais seguindo em SageMaker HyperPod cotas.
-
Em Quantidade de instâncias, especifique um número inteiro que não exceda a cota de instância para uso do cluster. Para este tutorial, insira 1 para todos os três grupos.
-
Para Zona de disponibilidade de destino, escolha a zona de disponibilidade em que suas instâncias serão provisionadas. A zona de disponibilidade deve corresponder à localização da sua capacidade computacional acelerada.
-
Para Volume de armazenamento adicional por instância (GB) — opcional, especifique um número inteiro entre 1 e 16384 para definir o tamanho de um volume adicional do Elastic Block Store (EBS) em gigabytes (GB). O volume do EBS é anexado a cada instância do grupo de instâncias. O caminho de montagem padrão para o volume adicional do EBS é
/opt/sagemaker
. Depois que o cluster for criado com sucesso, você poderá entrar por SSH nas instâncias do cluster (nós) e verificar se o volume do EBS está montado corretamente executando o comandodf -h
. A anexação de um volume adicional do EBS fornece armazenamento estável, fora da instância e com persistência independente, conforme descrito na seção de volumes do Amazon EBS no Guia do usuário do Amazon Elastic Block Store. -
Escolha Adicionar grupo de instâncias.
Esta seção lista todas as configurações padrão para a criação do cluster, incluindo todos os novos AWS recursos que serão criados durante o processo de criação do cluster. Reveja as configurações padrão.
Configuração personalizada
Na seção Configuração personalizada, siga estas etapas para criar seu HyperPod cluster com a orquestração do Slurm.
Especifique um nome para o novo cluster. Você não pode alterar o nome após a criação do cluster.
Em Recuperação de instância, escolha Automático - recomendado ou Nenhum.
Defina suas configurações de rede para a criação do cluster. Essas configurações não podem ser alteradas após a criação do cluster.
-
Para VPC, escolha sua própria VPC se você já tiver uma que dê acesso de SageMaker IA à sua VPC. Para criar uma nova VPC, siga as instruções em Criar uma VPC no Guia do usuário da Amazon Virtual Private Cloud. Você pode deixá-lo como Nenhum para usar o SageMaker AI VPC padrão.
-
Para o bloco IPv4 CIDR da VPC, insira o IP inicial da sua VPC.
-
Em Zonas de disponibilidade, escolha as Zonas de Disponibilidade (AZ) onde HyperPod criará sub-redes para seu cluster. Escolha AZs aquela que corresponda à localização da sua capacidade computacional acelerada.
-
Para grupos de segurança, crie um grupo de segurança ou escolha até cinco grupos de segurança configurados com regras para permitir a comunicação entre recursos dentro da VPC.
Para adicionar um grupo de instâncias, escolha Adicionar grupo. Cada grupo de instâncias pode ser configurado de forma diferente e você pode criar um cluster heterogêneo que consiste em vários grupos de instâncias com vários tipos de instância. Para implantar um cluster, você deve adicionar pelo menos um grupo de instâncias.
Importante
Você pode adicionar um grupo de instâncias por vez. Para criar vários grupos de instâncias, repita o processo para cada grupo de instâncias.
Siga estas etapas para adicionar um grupo de instâncias.
-
Em Tipo de grupo de instâncias, escolha um tipo para seu grupo de instâncias. Para este tutorial, escolha Controller (head) for
my-controller-group
, Login formy-login-group
e Compute (worker) forworker-group-1
. -
Em Nome, especifique um nome para o grupo de instâncias. Para este tutorial, crie três grupos de instâncias chamados
my-controller-group
,my-login-group
, eworker-group-1
. -
Em Capacidade de instância, escolha a capacidade sob demanda ou um plano de treinamento para reservar seus recursos computacionais.
-
Em Tipo de instância, escolha a instância para o grupo de instâncias. Para este tutorial, selecione
ml.c5.xlarge
paramy-controller-group
,ml.m5.4xlarge
paramy-login-group
, eml.trn1.32xlarge
paraworker-group-1
.Escolha o tipo de instância com cotas suficientes em sua conta ou solicite cotas adicionais seguindo em SageMaker HyperPod cotas.
-
Em Quantidade de instâncias, especifique um número inteiro que não exceda a cota de instância para uso do cluster. Para este tutorial, insira 1 para todos os três grupos.
-
Para Zona de disponibilidade de destino, escolha a zona de disponibilidade em que suas instâncias serão provisionadas. A zona de disponibilidade deve corresponder à localização da sua capacidade computacional acelerada.
-
Para Volume de armazenamento adicional por instância (GB) — opcional, especifique um número inteiro entre 1 e 16384 para definir o tamanho de um volume adicional do Elastic Block Store (EBS) em gigabytes (GB). O volume do EBS é anexado a cada instância do grupo de instâncias. O caminho de montagem padrão para o volume adicional do EBS é
/opt/sagemaker
. Depois que o cluster for criado com sucesso, você poderá entrar por SSH nas instâncias do cluster (nós) e verificar se o volume do EBS está montado corretamente executando o comandodf -h
. A anexação de um volume adicional do EBS fornece armazenamento estável, fora da instância e com persistência independente, conforme descrito na seção de volumes do Amazon EBS no Guia do usuário do Amazon Elastic Block Store. -
Escolha Adicionar grupo de instâncias.
Você pode escolher usar os scripts de ciclo de vida padrão ou os scripts de ciclo de vida personalizados, que serão armazenados em seu bucket do Amazon S3. Você pode visualizar os scripts de ciclo de vida padrão no repositório Awesome Distributed Training GitHub
-
Para scripts de ciclo de vida, escolha usar scripts de ciclo de vida padrão ou personalizados.
-
Para scripts de ciclo de vida do bucket S3, escolha criar um novo bucket ou usar um bucket existente para armazenar os scripts de ciclo de vida.
Escolha ou crie uma função do IAM que permita HyperPod executar e acessar AWS os recursos necessários em seu nome.
Configure o FSx sistema de arquivos Lustre para ser provisionado no cluster. HyperPod
-
Para Sistema de arquivos, escolha um sistema de arquivos existente FSx para o Lustre, para criar um novo sistema de arquivos FSx para o Lustre, ou não provisione um sistema de arquivos FSx para o Lustre.
-
Para Taxa de transferência por unidade de armazenamento, escolha a taxa de transferência que estará disponível por TiB de armazenamento provisionado.
-
Em Capacidade de armazenamento, insira um valor de capacidade em TB.
-
Em Tipo de compactação de dados, escolha ativar LZ4a compactação de dados.
-
Para a versão Lustre, veja o valor recomendado para os novos sistemas de arquivos.
Para Tags - opcional, adicione pares de chaves e valores ao novo cluster e gerencie o cluster como um AWS recurso. Para saber mais, consulte Marcação de AWS recursos.
Implantar recursos
Depois de concluir as configurações do cluster usando a Configuração rápida ou a Configuração personalizada, escolha a opção a seguir para iniciar o provisionamento de recursos e a criação do cluster.
-
Enviar — a SageMaker IA começará a provisionar os recursos de configuração padrão e a criar o cluster.
-
Baixar parâmetros CloudFormation do modelo - Você fará o download do arquivo JSON do parâmetro de configuração e executará o AWS CLI comando para implantar a CloudFormation pilha para provisionar os recursos de configuração e criar o cluster. Você pode editar o arquivo JSON do parâmetro baixado, se necessário. Se você escolher essa opção, veja mais instruções emCriação de SageMaker HyperPod clusters usando AWS CloudFormation modelos.
Exclua o cluster e limpe os recursos.
Depois de testar com êxito a criação de um SageMaker HyperPod cluster, ele continua sendo executado no InService
estado até que você exclua o cluster. Recomendamos que você exclua todos os clusters criados usando instâncias de SageMaker IA sob demanda quando não estiverem em uso para evitar cobranças de serviço contínuas com base nos preços sob demanda. Neste tutorial, você criou um cluster que consiste em dois grupos de instâncias. Um deles usa uma instância C5, portanto, exclua o cluster seguindo as instruções em Excluir um SageMaker HyperPod cluster.
No entanto, se você tiver criado um cluster com capacidade computacional reservada, o status dos clusters não afetará o faturamento do serviço.
Para limpar os scripts de ciclo de vida do bucket do S3 usados neste tutorial, acesse o bucket do S3 usado durante a criação do cluster e remova completamente os arquivos.
Se você testou a execução de qualquer carga de trabalho no cluster, verifique se você carregou algum dado ou se seu trabalho salvou algum artefato em diferentes buckets do S3 ou serviços do sistema de arquivos, como Amazon FSx for Lustre e Amazon Elastic File System. Para evitar cobranças, exclua todos os artefatos e dados do armazenamento ou do sistema de arquivos.