Criação de um SageMaker HyperPod cluster com a orquestração do Amazon EKS - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Criação de um SageMaker HyperPod cluster com a orquestração do Amazon EKS

O tutorial a seguir demonstra como criar um novo SageMaker HyperPod cluster e configurá-lo com a orquestração do Amazon EKS por meio da interface de usuário do console de SageMaker IA.

Criar cluster

Para navegar até a página SageMaker HyperPod Clusters e escolher a orquestração do Amazon EKS, siga estas etapas.

  1. Abra o console do Amazon SageMaker AI em https://console.aws.amazon.com/sagemaker/.

  2. Escolha HyperPod Clusters no painel de navegação esquerdo e, em seguida, Gerenciamento de Clusters.

  3. Na página SageMaker HyperPod Clusters, escolha Criar HyperPod cluster.

  4. No menu suspenso Criar HyperPod cluster, escolha Orchestrated by Amazon EKS.

  5. Na página de criação do cluster do EKS, você verá duas opções: escolha a que melhor atenda às suas necessidades.

    1. Configuração rápida: para começar imediatamente com as configurações padrão, escolha Configuração rápida. Com essa opção, a SageMaker IA criará novos recursos, como VPC, sub-redes, grupos de segurança, bucket do Amazon S3, função do IAM e FSx para o Lustre no processo de criação do seu cluster.

    2. Configuração personalizada: para se integrar aos recursos existentes da AWS ou se tiver requisitos específicos de rede, segurança ou armazenamento, escolha Configuração personalizada. Com essa opção, você pode optar por usar os recursos existentes ou criar outros, além de personalizar a configuração que melhor atenda às suas necessidades.

Na seção Configuração rápida, siga estas etapas para criar seu HyperPod cluster com a orquestração do Amazon EKS.

Configurações gerais

Especifique um nome para o novo cluster. Não é possível alterar o nome após a criação do cluster.

Grupos de instâncias

Para adicionar um grupo de instâncias, escolha Adicionar grupo. Cada grupo de instâncias pode ser configurado de forma diferente e você pode criar um cluster heterogêneo que consiste em vários grupos de instâncias com vários tipos de instância. Para implantar um cluster, você deve adicionar ao menos um grupo de instâncias. Siga as etapas abaixo para adicionar um grupo de instâncias.

  1. Em Tipo de grupo de instâncias, escolha Padrão ou Grupo de instâncias restritas (RIG). Normalmente, você escolherá Padrão, que oferece um ambiente de computação de uso geral sem restrições adicionais de segurança. O grupo de instâncias restritas (RIG) é um ambiente especializado para personalização de modelos de base, como o Amazon Nova. Para ter mais informações sobre como configurar o RIG para a personalização de modelos do Amazon Nova, consulte Personalização do Amazon Nova na Amazon SageMaker HyperPod.

  2. Em Nome, especifique um nome para o grupo de instâncias.

  3. Em Capacidade da instância, escolha a capacidade sob demanda ou um plano de treinamento para reservar seus recursos de computação.

  4. Em Selecionar tipo de instância, escolha a instância para o grupo de instâncias.

    Importante

    Escolha um tipo de instância com cotas suficientes e endereços IP não atribuídos suficientes para sua conta. Para visualizar ou solicitar cotas adicionais, consulte SageMaker HyperPod cotas.

  5. Em Quantidade de instâncias, especifique um número inteiro que não exceda a cota de instância para uso do cluster. Para este tutorial, insira 1 para todos os três grupos.

  6. Na lista Zona de disponibilidade de destino, selecione a zona de disponibilidade onde suas instâncias serão provisionadas. A zona de disponibilidade deve corresponder ao local da sua capacidade de computação acelerada.

  7. Em Outros volumes de armazenamento por instância (GB), especifique um número inteiro entre 1 e 16.384 para definir o tamanho de um volume adicional do Elastic Block Store (EBS) em gigabytes (GB). O volume do EBS é anexado a cada instância do grupo de instâncias. O caminho de montagem padrão para o volume adicional do EBS é/opt/sagemaker. Depois que o cluster for criado com sucesso, você poderá entrar por SSH nas instâncias do cluster (nós) e verificar se o volume do EBS está montado corretamente executando o comando df -h. A anexação de um volume adicional do EBS fornece armazenamento estável, fora da instância e com persistência independente, conforme descrito na seção de volumes do Amazon EBS no Guia do usuário do Amazon Elastic Block Store.

  8. Em Verificações de integridade profundas de instância, escolha sua opção. As verificações de integridade profundas monitoram a integridade da instância durante a criação e após atualizações de software, recuperando automaticamente as instâncias defeituosas por meio de reinicializações ou substituições quando habilitadas.

  9. Se seu tipo de instância for compatível com o particionamento de GPU com GPU de várias instâncias (MIG), você pode ativar a configuração da partição de GPU para o grupo de instâncias. O particionamento de GPU permite que você se divida GPUs em partições menores e isoladas para melhorar a utilização dos recursos. Para obter mais informações, consulte Usando partições de GPU na Amazon SageMaker HyperPod.

    1. Alterne Usar partição de GPU para ativar o particionamento de GPU para esse grupo de instâncias.

    2. Selecione um perfil de partição de GPU entre as opções disponíveis para seu tipo de instância. Cada perfil define a configuração da fatia da GPU e a alocação de memória.

  10. Escolha Adicionar grupo de instâncias.

Padrões de configuração rápida

Esta seção lista todas as configurações padrão para a criação do cluster, incluindo todos os novos AWS recursos que serão criados durante o processo de criação do cluster. Reveja as configurações padrão.

Na seção Configuração personalizada, siga estas etapas para criar seu primeiro HyperPod cluster com a orquestração do Amazon EKS.

Configurações gerais

Especifique um nome para o novo cluster. Não é possível alterar o nome após a criação do cluster.

Em Recuperação de instâncias, escolha Automático: recomendado ou Nenhum.

Redes

Defina as configurações de rede dentro in-and-out do cluster e do cluster. Para orquestração do SageMaker HyperPod cluster com o Amazon EKS, a VPC é automaticamente definida como aquela configurada com o cluster EKS que você selecionou.

  1. Para VPC, escolha sua própria VPC se você já tiver uma que dê acesso de SageMaker IA à sua VPC. Para criar uma VPC, siga as instruções em Criar uma VPC no Manual do usuário da Amazon Virtual Private Cloud. Você pode deixá-lo como Nenhum para usar o SageMaker AI VPC padrão.

  2. Para o bloco IPv4 CIDR da VPC, insira o IP inicial da sua VPC.

  3. Em Zonas de disponibilidade, escolha as Zonas de Disponibilidade (AZ) onde HyperPod criará sub-redes para seu cluster. Escolha AZs aquela que corresponda à localização da sua capacidade computacional acelerada.

  4. Em Grupos de segurança, escolha os grupos de segurança que estejam conectados ao cluster do Amazon EKS ou cujo tráfego de entrada seja permitido pelo grupo de segurança associado ao cluster do Amazon EKS. Para criar grupos de segurança, acesse o console da Amazon VPC.

Orquestração

Siga estas etapas para criar ou selecionar um cluster do Amazon EKS e usá-lo como orquestrador.

  1. Em Cluster do EKS, escolha criar um cluster do Amazon EKS ou usar um existente.

    Se precisar criar um cluster do EKS, você pode criá-lo na seção de cluster do EKS sem precisar abrir o console do Amazon EKS.

    nota

    A sub-rede VPC que você escolher precisa ser HyperPod privada.

    Depois de enviar uma nova solicitação de criação de cluster do EKS, espere até que o cluster do EKS fique Active.

  2. Em Versão do Kubernetes, escolha uma versão no menu suspenso. Para ter mais informações sobre as versões Kubernetes, consulte Compreender o ciclo de vida da versão do Kubernetes no EKS no Guia do usuário do Amazon EKS.

  3. Em Operadores, escolha Use gráficos e complementos padrão do Helm ou Não instale operadores. A opção usa Use gráficos e complementos padrão do Helm como padrão, os quais serão usados para instalar operadores no cluster do EKS. Para obter mais informações sobre os gráficos e complementos padrão do Helm, consulte no helm_chart GitHubrepositório. Para obter mais informações, consulte Instalar pacotes no cluster do Amazon EKS usando o Helm.

  4. Em Operadores habilitados, visualize a lista de operadores habilitados. Para editar os operadores, desmarque a caixa na parte superior e escolha os operadores a serem habilitados para o cluster do EKS.

    nota

    Para usar HyperPod com o EKS, você deve instalar gráficos e complementos do Helm que habilitem operadores no cluster EKS. Esses componentes configuram o EKS como o plano de controle HyperPod e fornecem a configuração necessária para o gerenciamento e a orquestração da carga de trabalho.

Grupos de instâncias

Para adicionar um grupo de instâncias, escolha Adicionar grupo. Cada grupo de instâncias pode ser configurado de forma diferente e você pode criar um cluster heterogêneo que consiste em vários grupos de instâncias com vários tipos de instância. Para implantar um cluster, você deve adicionar ao menos um grupo de instâncias. Siga as etapas abaixo para adicionar um grupo de instâncias.

  1. Em Tipo de grupo de instâncias, escolha Padrão ou Grupo de instâncias restritas (RIG). Normalmente, você escolherá Padrão, que oferece um ambiente de computação de uso geral sem restrições adicionais de segurança. O grupo de instâncias restritas (RIG) é um ambiente especializado para personalização de modelos de base, como o Amazon Nova. Para ter mais informações sobre como configurar o RIG para a personalização de modelos do Amazon Nova, consulte Personalização do Amazon Nova na Amazon SageMaker HyperPod.

  2. Em Nome, especifique um nome para o grupo de instâncias.

  3. Em Capacidade da instância, escolha a capacidade sob demanda ou um plano de treinamento para reservar seus recursos de computação.

  4. Em Selecionar tipo de instância, escolha a instância para o grupo de instâncias.

    Importante

    Escolha um tipo de instância com cotas suficientes e endereços IP não atribuídos suficientes para sua conta. Para visualizar ou solicitar cotas adicionais, consulte SageMaker HyperPod cotas.

  5. Em Quantidade de instâncias, especifique um número inteiro que não exceda a cota de instância para uso do cluster. Para este tutorial, insira 1 para todos os três grupos.

  6. Na lista Zona de disponibilidade de destino, selecione a zona de disponibilidade onde suas instâncias serão provisionadas. A zona de disponibilidade deve corresponder ao local da sua capacidade de computação acelerada.

  7. Em Outros volumes de armazenamento por instância (GB), especifique um número inteiro entre 1 e 16.384 para definir o tamanho de um volume adicional do Elastic Block Store (EBS) em gigabytes (GB). O volume do EBS é anexado a cada instância do grupo de instâncias. O caminho de montagem padrão para o volume adicional do EBS é/opt/sagemaker. Depois que o cluster for criado com sucesso, você poderá entrar por SSH nas instâncias do cluster (nós) e verificar se o volume do EBS está montado corretamente executando o comando df -h. A anexação de um volume adicional do EBS fornece armazenamento estável, fora da instância e com persistência independente, conforme descrito na seção de volumes do Amazon EBS no Guia do usuário do Amazon Elastic Block Store.

  8. Em Verificações de integridade profundas de instância, escolha sua opção. As verificações de integridade profundas monitoram a integridade da instância durante a criação e após atualizações de software, recuperando automaticamente as instâncias defeituosas por meio de reinicializações ou substituições quando habilitadas. Para saber mais, consulte Verificações de integridade profundas

  9. Para Usar partição GPU — opcional, se seu tipo de instância for compatível com particionamento de GPU com GPU de várias instâncias (MIG), você pode ativar essa opção para configurar o perfil de partição da GPU para o grupo de instâncias. O particionamento de GPU permite que você se divida GPUs em partições menores e isoladas para melhorar a utilização dos recursos. Para obter mais informações, consulte Usando partições de GPU na Amazon SageMaker HyperPod.

    1. Alterne Usar partição de GPU para ativar o particionamento de GPU para esse grupo de instâncias.

    2. Selecione um perfil de partição de GPU entre as opções disponíveis para seu tipo de instância. Cada perfil define a configuração da fatia da GPU e a alocação de memória.

  10. Escolha Adicionar grupo de instâncias.

Scripts de ciclo de vida

Você pode optar por usar os scripts de ciclo de vida padrão ou os scripts de ciclo de vida personalizados, que serão armazenados em seu bucket do Amazon S3. Você pode visualizar os scripts de ciclo de vida padrão no repositório Awesome Distributed Training GitHub . Para saber mais sobre os scripts de ciclo de vida, consulte Personalização de SageMaker HyperPod clusters usando scripts de ciclo de vida.

  1. Em Scripts de ciclo de vida, opte por usar o script de ciclo de vida padrão ou scripts personalizados.

  2. Para Scripts de ciclo de vida do bucket do S3, opte por criar um bucket ou usar um existente para armazenar os scripts de ciclo de vida.

Permissões

Escolha ou crie uma função do IAM que permita HyperPod executar e acessar AWS os recursos necessários em seu nome. Para obter mais informações, consulte Função do IAM para SageMaker HyperPod.

Armazenamento

Configure o FSx sistema de arquivos Lustre para ser provisionado no cluster. HyperPod

  1. Para Sistema de arquivos, escolha um sistema de arquivos existente FSx para o Lustre, para criar um novo sistema de arquivos FSx para o Lustre, ou não provisione um sistema de arquivos FSx para o Lustre.

  2. Em Throughput por unidade de armazenamento, escolha o throughput que estará disponível por TiB de armazenamento provisionado.

  3. Em Capacidade de armazenamento, insira um valor de capacidade em TB.

  4. Em Tipo de compactação de dados, escolha ativar LZ4a compactação de dados.

  5. Em Versão do Lustre, veja o valor recomendado para os novos sistemas de arquivos.

Tags: opcional

Para Tags - opcional, adicione pares de chaves e valores ao novo cluster e gerencie o cluster como um AWS recurso. Para saber mais, consulte Marcação de AWS recursos.

Implantar recursos.

Depois de concluir as configurações do cluster usando a Configuração rápida ou a Configuração personalizada, escolha a opção a seguir para iniciar o provisionamento de recursos e a criação do cluster.

  • Enviar — a SageMaker IA começará a provisionar os recursos de configuração padrão e a criar o cluster.

  • Baixar parâmetros CloudFormation do modelo - Você fará o download do arquivo JSON do parâmetro de configuração e executará o AWS CLI comando para implantar a CloudFormation pilha para provisionar os recursos de configuração e criar o cluster. Você pode editar o arquivo JSON do parâmetro baixado, se necessário. Se você escolher essa opção, consulte mais instruções em Criação de SageMaker HyperPod clusters usando CloudFormation modelos.