As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Comece a usar o suporte do Amazon EKS em SageMaker HyperPod
Além do formulário geral Pré-requisitos para usar o SageMaker HyperPod SageMaker HyperPod, verifique os seguintes requisitos e considerações para orquestrar clusters SageMaker HyperPod usando o Amazon EKS.
Importante
Você pode definir a configuração de recursos para criar SageMaker HyperPod clusters usando o Console de gerenciamento da AWS CloudFormation e. Para obter mais informações, consulte Criação de um SageMaker HyperPod cluster com a orquestração do Amazon EKS e Criação de SageMaker HyperPod clusters usando CloudFormation modelos.
Requisitos
nota
Antes de criar um HyperPod cluster, você precisa de um cluster Amazon EKS em execução configurado com VPC e instalado usando o Helm.
-
Se estiver usando o console de SageMaker IA, você pode criar um cluster Amazon EKS na página do console do HyperPod cluster. Para obter mais informações, consulte Criação de um SageMaker HyperPod cluster com a orquestração do Amazon EKS.
-
Se estiver usando a AWS CLI, você deve criar um cluster Amazon EKS antes de criar um HyperPod cluster ao qual se associar. Para obter mais informações, consulte Criação de um cluster do Amazon EKS no Guia do usuário do Amazon EKS.
Ao provisionar o cluster do Amazon EKS, considere o seguinte:
-
Versão compatível do Kubernetes
-
SageMaker HyperPod é compatível com as versões 1.28, 1.29, 1.30, 1.31, 1.32 e 1.33 do Kubernetes.
-
-
Modo de autenticação de cluster do Amazon EKS
-
O modo de autenticação de um cluster Amazon EKS suportado por SageMaker HyperPod are
APIAPI_AND_CONFIG_MAPe.
-
-
Redes
-
SageMaker HyperPod requer o plug-in Amazon VPC Container Network Interface (CNI) versão 1.18.3 ou posterior.
nota
AWSO plug-in VPC CNI para Kubernetes
é o único CNI compatível com o. SageMaker HyperPod -
O tipo de sub-rede em sua VPC deve ser privado HyperPod para clusters.
-
-
Perfis do IAM
-
Certifique-se de que as funções necessárias do IAM HyperPod estejam configuradas conforme orientado na AWS Identity and Access Managementpara SageMaker HyperPod seção.
-
-
Complementos do cluster do Amazon EKS
-
Você pode continuar usando os vários complementos fornecidos pelo Amazon EKS, como o Kube-proxy, o CoreDNS, o plug-in Amazon VPC Container Network Interface (CNI), a identidade GuardDuty de pod do Amazon EKS, o agente, o driver Amazon Container Storage Interface (CSI), FSx o driver Mountpoint for Amazon S3 CSI, o agente Distro for e o agente Observability. AWS OpenTelemetry CloudWatch
-
Considerações sobre a configuração de SageMaker HyperPod clusters com o Amazon EKS
-
É necessário usar perfis do IAM distintos com base no tipo de nó. Para HyperPod nós, use uma função baseada emFunção do IAM para SageMaker HyperPod. Para os nós do Amazon EKS, consulte Amazon EKS node IAM role.
-
Você pode provisionar e montar volumes adicionais do Amazon EBS em SageMaker HyperPod nós usando duas abordagens: usar InstanceStorageConfigspara provisionamento de volumes em nível de cluster (disponível ao criar ou atualizar grupos de instâncias) ou usar o driver Amazon Elastic Block Store (Amazon EBS) Container Storage Interface (CSI) para gerenciamento dinâmico de volumes em nível de pod. Com InstanceStorageConfigs, defina o caminho local
/opt/sagemakerpara montar adequadamente os volumes em seus pods do Amazon EKS. Para obter informações sobre como implantar o controlador CSI do Amazon EBS em HyperPod nós, consulte. Usando o driver CSI do Amazon EBS em SageMaker HyperPod clusters EKS -
Se você usa rótulos de tipo de instância para definir restrições de agendamento, certifique-se de usar os tipos de instância de SageMaker AI ML prefixados com.
ml.Por exemplo, para instâncias P5, useml.p5.48xlargeem vez dep5.48xlarge.
Considerações para configurar a rede para SageMaker HyperPod clusters com o Amazon EKS
-
Cada instância de HyperPod cluster oferece suporte a uma interface de rede elástica (ENI). Para saber o número máximo de pods por tipo de instância, consulte a tabela a seguir.
Tipo de instância Número máximo de pods ml.p4d.24xlarge 49 ml.p4de.24xlarge 49 ml.p5.48xlarge 49 ml.trn1.32xlarge 49 ml.trn1n.32xlarge 49 ml.g5.xlarge 14 ml.g5.2xlarge 14 ml.g5.4xlarge 29 ml.g5.8xlarge 29 ml.g5.12xlarge 49 ml.g5.16xlarge 29 ml.g5.24xlarge 49 ml.g5.48xlarge 49 ml.c5.large 9 ml.c5.xlarge 14 ml.c5.2xlarge 14 ml.c5.4xlarge 29 ml.c5.9xlarge 29 ml.c5.12xlarge 29 ml.c5.18xlarge 49 ml.c5.24xlarge 49 ml.c5n.large 9 ml.c5n.2xlarge 14 ml.c5n.4xlarge 29 ml.c5n.9xlarge 29 ml.c5n.18xlarge 49 ml.m5.large 9 ml.m5.xlarge 14 ml.m5.2xlarge 14 ml.m5.4xlarge 29 ml.m5.8xlarge 29 ml.m5.12xlarge 29 ml.m5.16xlarge 49 ml.m5.24xlarge 49 ml.t3.medium 5 ml.t3.large 11 ml.t3.xlarge 14 ml.t3.2xlarge 14 ml.g6.xlarge 14 ml.g6.2xlarge 14 ml.g6.4xlarge 29 ml.g6.8xlarge 29 ml.g6.12xlarge 29 ml.g6.16xlarge 49 ml.g6.24xlarge 49 ml.g6.48xlarge 49 ml.gr6.4xlarge 29 ml.gr6.8xlarge 29 ml.g6e.xlarge 14 ml.g6e.2xlarge 14 ml.g6e.4xlarge 29 ml.g6e.8xlarge 29 ml.g6e.12xlarge 29 ml.g6e.16xlarge 49 ml.g6e.24xlarge 49 ml.g6e.48xlarge 49 ml.p5e.48xlarge 49 -
Somente os pods com
hostNetwork = truetêm acesso ao Amazon EC2 Instance Metadata Service (IMDS) por padrão. Use a identidade do Amazon EKS Pod ou as funções do IAM para contas de serviço (IRSA) para gerenciar o acesso às AWS credenciais dos pods. -
HyperPod Os clusters orquestrados pelo EKS oferecem suporte a dois modos de endereçamento IP, permitindo a configuração com ou IPv4 para clusters do IPv6 IPv6 Amazon EKS em ambientes de IPv6 VPC e sub-rede habilitados. Para obter mais informações, consulte Configuração SageMaker HyperPod com uma Amazon VPC personalizada.
Considerações sobre o uso dos recursos de resiliência HyperPod do cluster
-
A substituição automática de nós não é compatível com instâncias de CPU.
-
O agente HyperPod de monitoramento de integridade precisa ser instalado para que a recuperação automática do nó funcione. O agente pode ser instalado usando o Helm. Para obter mais informações, consulte Instalar pacotes no cluster do Amazon EKS usando o Helm.
-
O agente de verificação HyperPod profunda de integridade e monitoramento de integridade é compatível com instâncias de GPU e Trn.
-
SageMaker A IA aplica a seguinte contaminação aos nós quando eles estão passando por verificações de integridade detalhadas:
effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulablenota
Você não pode adicionar taints personalizadas aos nós em grupos de instâncias com a opção
DeepHealthChecksativada.
Depois que seu cluster Amazon EKS estiver em execução, configure seu cluster usando o gerenciador de pacotes Helm conforme as instruções Instalar pacotes no cluster do Amazon EKS usando o Helm antes de criar seu HyperPod cluster.