Comece a usar o suporte do Amazon EKS em SageMaker HyperPod - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Comece a usar o suporte do Amazon EKS em SageMaker HyperPod

Além do formulário geral Pré-requisitos para usar o SageMaker HyperPod SageMaker HyperPod, verifique os seguintes requisitos e considerações para orquestrar clusters SageMaker HyperPod usando o Amazon EKS.

Importante

Você pode definir a configuração de recursos para criar SageMaker HyperPod clusters usando o Console de gerenciamento da AWS CloudFormation e. Para obter mais informações, consulte Criação de um SageMaker HyperPod cluster com a orquestração do Amazon EKS e Criação de SageMaker HyperPod clusters usando CloudFormation modelos.

Requisitos

nota

Antes de criar um HyperPod cluster, você precisa de um cluster Amazon EKS em execução configurado com VPC e instalado usando o Helm.

Ao provisionar o cluster do Amazon EKS, considere o seguinte:

  1. Versão compatível do Kubernetes

    • SageMaker HyperPod é compatível com as versões 1.28, 1.29, 1.30, 1.31, 1.32 e 1.33 do Kubernetes.

  2. Modo de autenticação de cluster do Amazon EKS

    • O modo de autenticação de um cluster Amazon EKS suportado por SageMaker HyperPod are API API_AND_CONFIG_MAP e.

  3. Redes

    • SageMaker HyperPod requer o plug-in Amazon VPC Container Network Interface (CNI) versão 1.18.3 ou posterior.

      nota

      AWSO plug-in VPC CNI para Kubernetes é o único CNI compatível com o. SageMaker HyperPod

    • O tipo de sub-rede em sua VPC deve ser privado HyperPod para clusters.

  4. Perfis do IAM

  5. Complementos do cluster do Amazon EKS

    • Você pode continuar usando os vários complementos fornecidos pelo Amazon EKS, como o Kube-proxy, o CoreDNS, o plug-in Amazon VPC Container Network Interface (CNI), a identidade GuardDuty de pod do Amazon EKS, o agente, o driver Amazon Container Storage Interface (CSI), FSx o driver Mountpoint for Amazon S3 CSI, o agente Distro for e o agente Observability. AWS OpenTelemetry CloudWatch

Considerações sobre a configuração de SageMaker HyperPod clusters com o Amazon EKS

  • É necessário usar perfis do IAM distintos com base no tipo de nó. Para HyperPod nós, use uma função baseada emFunção do IAM para SageMaker HyperPod. Para os nós do Amazon EKS, consulte Amazon EKS node IAM role.

  • Você pode provisionar e montar volumes adicionais do Amazon EBS em SageMaker HyperPod nós usando duas abordagens: usar InstanceStorageConfigspara provisionamento de volumes em nível de cluster (disponível ao criar ou atualizar grupos de instâncias) ou usar o driver Amazon Elastic Block Store (Amazon EBS) Container Storage Interface (CSI) para gerenciamento dinâmico de volumes em nível de pod. Com InstanceStorageConfigs, defina o caminho local /opt/sagemaker para montar adequadamente os volumes em seus pods do Amazon EKS. Para obter informações sobre como implantar o controlador CSI do Amazon EBS em HyperPod nós, consulte. Usando o driver CSI do Amazon EBS em SageMaker HyperPod clusters EKS

  • Se você usa rótulos de tipo de instância para definir restrições de agendamento, certifique-se de usar os tipos de instância de SageMaker AI ML prefixados com. ml. Por exemplo, para instâncias P5, use ml.p5.48xlarge em vez de p5.48xlarge.

Considerações para configurar a rede para SageMaker HyperPod clusters com o Amazon EKS

  • Cada instância de HyperPod cluster oferece suporte a uma interface de rede elástica (ENI). Para saber o número máximo de pods por tipo de instância, consulte a tabela a seguir.

    Tipo de instância Número máximo de pods
    ml.p4d.24xlarge 49
    ml.p4de.24xlarge 49
    ml.p5.48xlarge 49
    ml.trn1.32xlarge 49
    ml.trn1n.32xlarge 49
    ml.g5.xlarge 14
    ml.g5.2xlarge 14
    ml.g5.4xlarge 29
    ml.g5.8xlarge 29
    ml.g5.12xlarge 49
    ml.g5.16xlarge 29
    ml.g5.24xlarge 49
    ml.g5.48xlarge 49
    ml.c5.large 9
    ml.c5.xlarge 14
    ml.c5.2xlarge 14
    ml.c5.4xlarge 29
    ml.c5.9xlarge 29
    ml.c5.12xlarge 29
    ml.c5.18xlarge 49
    ml.c5.24xlarge 49
    ml.c5n.large 9
    ml.c5n.2xlarge 14
    ml.c5n.4xlarge 29
    ml.c5n.9xlarge 29
    ml.c5n.18xlarge 49
    ml.m5.large 9
    ml.m5.xlarge 14
    ml.m5.2xlarge 14
    ml.m5.4xlarge 29
    ml.m5.8xlarge 29
    ml.m5.12xlarge 29
    ml.m5.16xlarge 49
    ml.m5.24xlarge 49
    ml.t3.medium 5
    ml.t3.large 11
    ml.t3.xlarge 14
    ml.t3.2xlarge 14
    ml.g6.xlarge 14
    ml.g6.2xlarge 14
    ml.g6.4xlarge 29
    ml.g6.8xlarge 29
    ml.g6.12xlarge 29
    ml.g6.16xlarge 49
    ml.g6.24xlarge 49
    ml.g6.48xlarge 49
    ml.gr6.4xlarge 29
    ml.gr6.8xlarge 29
    ml.g6e.xlarge 14
    ml.g6e.2xlarge 14
    ml.g6e.4xlarge 29
    ml.g6e.8xlarge 29
    ml.g6e.12xlarge 29
    ml.g6e.16xlarge 49
    ml.g6e.24xlarge 49
    ml.g6e.48xlarge 49
    ml.p5e.48xlarge 49
  • Somente os pods com hostNetwork = true têm acesso ao Amazon EC2 Instance Metadata Service (IMDS) por padrão. Use a identidade do Amazon EKS Pod ou as funções do IAM para contas de serviço (IRSA) para gerenciar o acesso às AWS credenciais dos pods.

  • HyperPod Os clusters orquestrados pelo EKS oferecem suporte a dois modos de endereçamento IP, permitindo a configuração com ou IPv4 para clusters do IPv6 IPv6 Amazon EKS em ambientes de IPv6 VPC e sub-rede habilitados. Para obter mais informações, consulte Configuração SageMaker HyperPod com uma Amazon VPC personalizada.

Considerações sobre o uso dos recursos de resiliência HyperPod do cluster

  • A substituição automática de nós não é compatível com instâncias de CPU.

  • O agente HyperPod de monitoramento de integridade precisa ser instalado para que a recuperação automática do nó funcione. O agente pode ser instalado usando o Helm. Para obter mais informações, consulte Instalar pacotes no cluster do Amazon EKS usando o Helm.

  • O agente de verificação HyperPod profunda de integridade e monitoramento de integridade é compatível com instâncias de GPU e Trn.

  • SageMaker A IA aplica a seguinte contaminação aos nós quando eles estão passando por verificações de integridade detalhadas:

    effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
    nota

    Você não pode adicionar taints personalizadas aos nós em grupos de instâncias com a opção DeepHealthChecks ativada.

Depois que seu cluster Amazon EKS estiver em execução, configure seu cluster usando o gerenciador de pacotes Helm conforme as instruções Instalar pacotes no cluster do Amazon EKS usando o Helm antes de criar seu HyperPod cluster.