Pré-requisitos para usar o SageMaker HyperPod - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Pré-requisitos para usar o SageMaker HyperPod

As seções a seguir explicam os pré-requisitos antes de começar. SageMaker HyperPod

SageMaker HyperPod cotas

Você pode criar SageMaker HyperPod clusters considerando as cotas de uso do cluster em sua AWS conta.

Importante

Para saber mais sobre SageMaker HyperPod preços, consulte SageMaker HyperPod preços Amazon SageMaker Pricing.

Veja as SageMaker HyperPod cotas da Amazon usando o Console de gerenciamento da AWS

Procure os valores padrão e aplicados de uma cota, também conhecida como limite, para uso do cluster, que é usada para SageMaker HyperPod.

  1. Abra o console do Service Quotas.

  2. No painel de navegação à esquerda, selecione Serviços da AWS.

  3. Na lista de AWSserviços, pesquise e selecione Amazon SageMaker AI.

  4. Na lista de cotas de serviço, você pode ver o nome da cota de serviço, o valor aplicado (se disponível), a cota AWS padrão e se o valor da cota é ajustável.

  5. Na barra de pesquisa, digite uso do cluster. Isso mostra as cotas para uso do cluster, as cotas aplicadas e as cotas padrão.

Lista de cotas de serviços comuns para criar um HyperPod cluster e seus pré-requisitos

Talvez você queira verificar se solicitou aumentos no limite da cota de serviço para as cotas a seguir para criar um novo HyperPod cluster junto com os pré-requisitos no console de IA. SageMaker Navegue até o console do Service Quota e pesquise os seguintes termos.

Não Nome da cota Termo de pesquisa Description
1 Número máximo de instâncias permitidas por SageMaker HyperPod cluster Em SageMaker AI, pesquise por “Número máximo de instâncias permitido por SageMaker HyperPod cluster” O valor da cota no nível da conta deve ser maior do que o número de instâncias que você deseja adicionar ao seu cluster
2 Tamanho máximo do volume do EBS em GB para uma instância de SageMaker HyperPod cluster

Em SageMaker AI, pesquise por “Tamanho máximo do volume do EBS em GB para uma instância de HyperPod cluster” 

O valor da cota em nível de conta deve ser maior do que o volume do EBS que você deseja adicionar ao seu cluster

3 Número total de instâncias permitidas em todos os SageMaker HyperPod clusters

Em SageMaker AI, pesquise por “Número total de instâncias permitidas em SageMaker HyperPod clusters” 

O valor da cota no nível da conta deve ser maior do que o total de instâncias que você deseja adicionar em todos os clusters da sua conta em conjunto
4

Cotas de instância 

Em SageMaker IA, pesquise por “ml. <instance_type>para uso de cluster”, por exemplo: ml.p5.48xlarge para uso de cluster

O valor da cota em nível de conta para o tipo de instância específico (por exemplo: ml.p5.48xlarge) deve ser maior que o número de instâncias a serem adicionadas em todos os clusters da sua conta em conjunto.
5

VPCs por região

Em Amazon Virtual Private Cloud (Amazon VPC), pesquise VPCs por “por região” O valor da cota no nível da conta deve ser suficiente para criar uma nova VPC na conta ao configurar seu cluster. HyperPod Verifique se você já esgotou esse limite de cota no console da VPC. Esse aumento de cota só é necessário se você criar uma nova VPC por meio da opção de configuração de cluster rápida ou personalizada no SageMaker HyperPod console.
6

Gateways da Internet por região

Em Amazon Virtual Private Cloud (Amazon VPC), pesquise por “Gateways de Internet por região”

O valor da cota no nível da conta deve ser suficiente para criar um gateway de Internet adicional na conta ao configurar seu cluster. SageMaker HyperPod Esse aumento de cota só é necessário se você criar uma nova VPC por meio da opção de configuração de cluster rápida ou personalizada no SageMaker HyperPod console. 
7 Interfaces de rede por região Em Amazon Virtual Private Cloud (Amazon VPC), pesquise por “Interfaces de rede por região”

O valor da cota no nível da conta deve ter interfaces de rede suficientes na conta ao configurar seu cluster. HyperPod 

8 EC2-PVC elástico IPs Em Amazon Elastic Compute Cloud (Amazon EC2), pesquise por “EC2-VPC Elastic” IPs O valor da cota no nível da conta deve ser suficiente para criar uma nova VPC na conta ao configurar seu cluster. HyperPod Verifique se você já esgotou esse limite de cota no console da VPC. Esse aumento de cota só é necessário se você criar uma nova VPC por meio da opção de configuração de cluster rápida ou personalizada no SageMaker HyperPod console.

Solicite um aumento de SageMaker HyperPod cota da Amazon usando o Console de gerenciamento da AWS

Aumente suas cotas no nível da conta ou do recurso.

  1. Para aumentar a cota de instâncias para uso do cluster, selecione a cota que você deseja aumentar.

  2. Se a cota for ajustável, você poderá solicitar um aumento de cota no nível da conta ou do recurso com base no valor listado na coluna Ajustabilidade.

  3. Em Alterar o valor da cota, insira o novo valor. O novo valor deve ser maior que o valor atual.

  4. Escolha Solicitar.

  5. Para visualizar quaisquer solicitações pendentes ou resolvidas recentemente no console, navegue até a guia Histórico de solicitações na página de detalhes do serviço ou escolha Painel no painel de navegação. Para solicitações pendentes, escolha o status da solicitação para abrir o recibo da solicitação. O status inicial de uma solicitação é Pending (Pendente). Depois que o status mudar para Cota solicitada, você verá o número do caso comAWS Support. Escolha o número do caso para abrir o tíquete de sua solicitação.

Para informações sobre como solicitar o aumento da cota, consulte Solicitar um aumento de cota no Guia do usuário do AWS Service Quotas.

Configuração SageMaker HyperPod com uma Amazon VPC personalizada

Para configurar um SageMaker HyperPod cluster com uma Amazon VPC personalizada, analise os seguintes pré-requisitos.

nota

A configuração da VPC é obrigatória para a orquestração do Amazon EKS. Para a orquestração do Slurm, a configuração da VPC é opcional.

  • Valide a capacidade da Elastic Network Interface (ENI) em sua Conta da AWS antes de criar um SageMaker HyperPod cluster com uma VPC personalizada. O limite de ENI é controlado pela Amazon EC2 e varia de acordo com. Região da AWS SageMaker HyperPod não pode solicitar automaticamente aumentos de cota.

    Para verificar sua cota de ENI atual:
    1. Abra o console do Service Quotas.

    2. Na seção Gerenciar cotas, use a lista suspensa AWSServiços para pesquisar VPC.

    3. Opte por visualizar as cotas da Amazon Virtual Private Cloud (Amazon VPC).

    4. Procure a cota de serviço, as interfaces de rede por região ou o código de cota L-DF5E4CA3.

    Se o limite atual de ENI for insuficiente para as necessidades SageMaker HyperPod do cluster, solicite um aumento de cota. Garantir previamente a capacidade de ENI adequada ajuda a evitar falhas na implantação do cluster.

  • Ao usar uma VPC personalizada para conectar um SageMaker HyperPod cluster com AWS recursos, forneça o nome, IDRegião da AWS, sub-rede e grupo de segurança da VPC durante a IDs criação do cluster. IDs

    nota

    Quando sua Amazon VPC e sub-redes oferecem suporte IPv6 no nível do cluster ou no nível do grupo VPCConfigde instâncias usando o OverrideVPCConfig atributo de ClusterInstanceGroupSpecification, as comunicações de rede diferem com base na plataforma de orquestração do cluster:

    • Os clusters orquestrados pelo SLURM configuram automaticamente nós com IPv4 endereços duplos, permitindo comunicações de IPv6 rede imediatas. IPv6 Nenhuma configuração adicional é necessária além das VPCConfig IPv6 configurações.

    • Em clusters orquestrados pelo EKS, os nós recebem endereçamento de pilha dupla, mas os pods só podem ser usados IPv6 quando o cluster Amazon EKS está explicitamente ativado. IPv6 Você deve criar um novo cluster do IPv6 Amazon EKS - os clusters existentes do IPv4 Amazon EKS não podem ser convertidos em IPv6. Para obter informações sobre a implantação de um cluster IPv6 Amazon EKS, consulte Implantação de Amazon EKS IPv6 clusters.

    Recursos adicionais para IPv6 configuração:

    • Para obter informações sobre como adicionar IPv6 suporte à sua VPC, consulte IPv6 Support for VPC.

    • Para obter informações sobre como criar uma nova VPC IPv6 compatível, Amazon VPCconsulte o Guia de criação.

    • Para configurar SageMaker HyperPod com uma Amazon VPC personalizada, consulte Configuração personalizada da Amazon VPC para. SageMaker HyperPod

  • Certifique-se de que todos os recursos estejam implantados da Região da AWS mesma forma que o SageMaker HyperPod cluster. Configure as regras do grupo de segurança para permitir a comunicação entre recursos dentro da VPC. Por exemplo, ao criar uma VPC na us-west-2, provisione sub-redes em uma ou mais zonas de disponibilidade (como us-west-2a ou us-west-2b) e crie um grupo de segurança que permita o tráfego intragrupo.

    nota

    SageMaker HyperPod suporta a implantação de zonas de multidisponibilidade. Para obter mais informações, consulte Configurando SageMaker HyperPod clusters em vários AZs.

  • Estabeleça conectividade Amazon Simple Storage Service (Amazon S3) para SageMaker HyperPod grupos de instâncias implantadas em VPC criando um VPC endpoint. Sem acesso à internet, os grupos de instâncias não podem armazenar ou recuperar scripts de ciclo de vida, dados de treinamento ou artefatos de modelo. Recomendamos que você crie uma política personalizada do IAM restringindo o acesso ao bucket do Amazon S3 à VPC privada. Para ter mais informações, consulte Gateway endpoints for Amazon S3 no Guia do AWS PrivateLink.

  • Para HyperPod clusters que usam instâncias habilitadas para o Elastic Fabric Adapter (EFA), configure o grupo de segurança para permitir todo o tráfego de entrada e saída de e para o próprio grupo de segurança. Mais especificamente, evite usar 0.0.0.0/0 para regras de saída, pois isso pode causar falhas na verificação de integridade do EFA. Para obter mais informações sobre as diretrizes de preparação de grupos de segurança da EFA, consulte Etapa 1: Preparar um grupo de segurança habilitado para EFA no Guia do usuário da Amazon EC2 .

  • Considere cuidadosamente o tamanho do bloco Classless Inter-Domain Routing (CIDR) da sua sub-rede antes de criar clusters. HyperPod

    • O tamanho do bloco CIDR da sub-rede não pode ser alterado após a criação. Isso é especialmente importante quando você usa grandes instâncias aceleradas, como a P5. Sem um tamanho de bloco suficiente, você deve recriar os clusters ao aumentar a escala verticalmente.

    • Ao escolher o tamanho apropriado do bloco CIDR da sub-rede, considere estes fatores: os tipos de instância, o número esperado de instâncias e o número de endereços IP consumidos por instância.

    • Para clusters orquestrados pelo Slurm, cada instância P5 pode criar 32 endereços IP (um por placa de rede). Para clusters orquestrados pelo EKS, cada instância P5 pode criar 81 endereços IP (50 da placa primária mais 1 de cada uma das 31 placas restantes). Para obter especificações detalhadas, consulte Especificações de rede no Amazon EC2 Instance Types Developer Guide.

    • Para exemplos de CloudFormation modelos que especificam o tamanho do bloco CIDR da sub-rede, consulte o modelo HyperPod Slurm e o modelo HyperPod Amazon EKS no repositório. awsome-distributed-training

Configurando SageMaker HyperPod clusters em vários AZs

Você pode configurar seus SageMaker HyperPod clusters em várias zonas de disponibilidade (AZs) para melhorar a confiabilidade e a disponibilidade.

nota

O tráfego do Elastic Fabric Adapter (EFA) não pode cruzar ou. AZs VPCs Isso não se aplica ao tráfego IP normal do dispositivo ENA de uma interface EFA. Para ter mais informações, consulte Limitações de EFA.

  • Comportamento padrão

    HyperPod implanta todas as instâncias do cluster em uma única zona de disponibilidade. A configuração da VPC determina a AZ de implantação:

    • Para clusters orquestrados pelo Slurm, a configuração da VPC é opcional. Quando nenhuma configuração de VPC é fornecida, o HyperPod padrão é uma sub-rede da plataforma VPC.

    • Para clusters orquestrados pelo EKS, a configuração da VPC é opcional.

    • Para os orquestradores Slurm e EKS, quando fornecido, VpcConfig HyperPodseleciona uma sub-rede na lista de sub-redes do fornecido. VpcConfig Todos os grupos de instâncias herdam a AZ da sub-rede.

    nota

    Após a criação de um cluster, não é possível modificar as definições da VpcConfig.

    Para saber mais sobre a configuração VPCs de HyperPod clusters, consulte a seção anterior,. Configuração SageMaker HyperPod com uma Amazon VPC personalizada

  • Configuração multi-AZ

    Você pode configurar seu HyperPod cluster em vários AZs ao criar um cluster ou ao adicionar um novo grupo de instâncias a um cluster existente. Para configurar implantações multi-AZ, você pode substituir as configurações de VPC padrão do cluster especificando diferentes sub-redes e grupos de segurança, possivelmente em diferentes zonas de disponibilidade, para grupos de instâncias individuais no cluster.

    SageMaker HyperPod Os usuários da API podem usar a OverrideVpcConfig propriedade dentro do ClusterInstanceGroupSpecificationao trabalhar com o CreateClusterou UpdateCluster APIs.

    O campo OverrideVpcConfig:

    • Não pode ser modificado após a criação do grupo de instâncias.

    • É opcional. Se não for especificado, o nível do cluster da VpcConfig será usado como padrão.

    • Para clusters orquestrados pelo Slurm, só pode ser especificado quando o nível do cluster da VpcConfig é fornecido. Se VpcConfig não for especificada no nível do cluster, OverrideVpcConfig não poderá ser usada para nenhum grupo de instâncias.

    • Contém dois campos obrigatórios:

      • Subnets- aceita entre 1 e 16 sub-redes IDs

      • SecurityGroupIds- aceita entre 1 e 5 grupos de segurança IDs

    Para obter mais informações sobre como criar ou atualizar um SageMaker HyperPod cluster usando a interface do usuário do SageMaker HyperPod console ou oAWS CLI:

nota

Ao executar cargas de trabalho em várias AZs, esteja ciente de que a comunicação de rede entre elas AZs introduz latência adicional. Considere esse impacto ao projetar aplicações sensíveis à latência.

Configurando AWS Systems Manager e executando como para controle de acesso do usuário do cluster

SageMaker HyperPod DLAMIvem com AWS Systems Manager(SSM) pronto para uso para ajudar você a gerenciar o acesso aos grupos de instâncias SageMaker HyperPod do cluster. Esta seção descreve como criar usuários do sistema operacional (SO) em seus SageMaker HyperPod clusters e associá-los a usuários e funções do IAM. Isso é útil para autenticar sessões SSM usando as credenciais da conta de usuário do sistema operacional.

nota

Conceder aos usuários acesso aos nós HyperPod do cluster permite que eles instalem e operem software gerenciado pelo usuário nos nós. Mantenha o princípio de permissões de privilégio mínimo para os usuários.

Ativando o Run As em sua AWS conta

Como administrador AWS da conta ou administrador da nuvem, você pode gerenciar o acesso aos SageMaker HyperPod clusters em uma função do IAM ou nível de usuário usando o recurso Run As no SSM. Com esse atributo, você pode iniciar cada sessão de SSM usando o usuário do sistema operacional associado ao perfil ou ao perfil do IAM.

Para ativar o Run As em sua AWS conta, siga as etapas em Ativar o suporte ao Run As para nós gerenciados do Linux e macOS. Se você já criou usuários de sistema operacional em seu cluster, certifique-se de associá-los às funções ou perfis do IAM, marcando-os conforme orientado na Opção 2 da etapa 5, em Ativar a opção de compatibilidade Executar como para nós gerenciados do Linux e macOS.

(Opcional) Configurando SageMaker HyperPod com o Amazon FSx for Lustre

Para começar a usar SageMaker HyperPod e mapear caminhos de dados entre o cluster e seu sistema de arquivos FSx for Lustre, selecione um dos Regiões da AWS compatíveis com. SageMaker HyperPod Depois de escolher a Região da AWS que você prefere, você também deve determinar qual zona de disponibilidade (AZ) usar.

Se você usar nós de SageMaker HyperPod computação AZs diferentes de AZs onde seu sistema de arquivos FSx for Lustre está configurado no mesmoRegião da AWS, pode haver sobrecarga de comunicação e rede. Recomendamos que você use a mesma AZ física da conta de SageMaker HyperPod serviço para evitar qualquer tráfego cruzado de AZ entre SageMaker HyperPod clusters e seu sistema de arquivos FSx for Lustre. Além disso, verifique se o configurou com sua VPC. Se você quiser usar a Amazon FSx como o principal sistema de arquivos para armazenamento, deverá configurar SageMaker HyperPod clusters com sua VPC.