As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Criação de um SageMaker HyperPod cluster
Saiba como criar SageMaker HyperPod clusters orquestrados pelo Amazon EKS usando o. AWS CLI
-
Antes de criar um SageMaker HyperPod cluster:
-
Certifique-se de ter um cluster existente do Amazon EKS instalado e em execução. Para obter instruções sobre como criar um novo cluster do Amazon EKS, consulte Criar um cluster do Amazon EKS no Guia do usuário do Amazon EKS.
-
Instale o chart do Helm conforme as instruções em Instalação de pacotes no cluster Amazon EKS usando o Helm. Se você criar umCriação de um cluster HyperPod EKS com grupo de instâncias restritas (RIG), precisará de um gráfico de leme separado.
-
-
Prepare um script de configuração de ciclo de vida e faça upload em um bucket do Amazon S3, como
s3://
.amzn-s3-demo-bucket
/Lifecycle-scripts
/base-config
/Para começar rapidamente, baixe o script
on_create.sh
de amostra do GitHub repositório de treinamento distribuído AWS ome e carregue-o no bucket do S3. Você também pode incluir instruções adicionais de configuração, uma série de scripts de configuração ou comandos a serem executados durante o estágio de provisionamento do HyperPod cluster. Importante
Se você criar um Função do IAM para SageMaker HyperPod anexando somente a
AmazonSageMakerClusterInstanceRolePolicy
gerenciada, seu cluster terá acesso aos buckets do Amazon S3 com o prefixo específicosagemaker-
.Se você criar um grupo restrito de instâncias, não precisará baixar e executar o script de ciclo de vida. Em vez disso, você precisa correr
install_rig_dependencies.sh
.Os pré-requisitos para executar o script incluem:
install_rig_dependencies.sh
-
AWS O Node (CNI) e o CoreDNS devem estar habilitados. Esses são complementos EKS padrão que não são gerenciados pelo SageMaker HyperPod Helm padrão, mas podem ser facilmente ativados no console EKS em Complementos.
-
O gráfico padrão do SageMaker HyperPod Helm deve ser instalado antes da execução desse script.
O
install_rig_dependencies.sh
script executa as seguintes ações.-
aws-node
(CNI): Novorig-aws-node
Daemonset criado;aws-node
corrigido existente para evitar nós RIG. -
coredns
: Convertido em Daemonset RIGs para suportar o uso de várias plataformas e evitar sobrecargas. -
operadores de treinamento: atualizado com as tolerâncias de contaminação do RIG Worker e o NodeAffinity favorecendo instâncias que não são do RIG.
-
Elastic Fabric Adapter (EFA): atualizado para tolerar a contaminação dos trabalhadores do RIG e usar imagens de contêiner corretas para cada região.
-
-
Prepare um arquivo de solicitação de CreateClusterAPI no formato JSON. Para
ExecutionRole
, forneça o ARN do perfil do IAM que você criou com oAmazonSageMakerClusterInstanceRolePolicy
gerenciado da seção Função do IAM para SageMaker HyperPod.nota
Certifique-se de que seu SageMaker HyperPod cluster seja implantado na mesma Virtual Private Cloud (VPC) do seu cluster Amazon EKS. As sub-redes e os grupos de segurança especificados na configuração do SageMaker HyperPod cluster devem permitir conectividade de rede e comunicação com o endpoint do servidor de API do cluster Amazon EKS.
// create_cluster.json
{ "ClusterName":"string"
, "InstanceGroups": [{ "InstanceGroupName":"string"
, "InstanceType":"string"
, "InstanceCount":number
, "LifeCycleConfig": { "SourceS3Uri":"s3://amzn-s3-demo-bucket-sagemaker>/<lifecycle-script-directory>/src/"
, "OnCreate":"on_create.sh"
}, "ExecutionRole":"string"
, "ThreadsPerCore":number
, "OnStartDeepHealthChecks": ["InstanceStress", "InstanceConnectivity"
] }], "RestrictedInstanceGroups": [ { "EnvironmentConfig": { "FSxLustreConfig": { "PerUnitStorageThroughput":number
, "SizeInGiB":number
} }, "ExecutionRole":"string"
, "InstanceCount":number
, "InstanceGroupName":"string"
, "InstanceStorageConfigs": [ { ... } ], "InstanceType":"string"
, "OnStartDeepHealthChecks": ["string"
], "OverrideVpcConfig": { "SecurityGroupIds": ["string"
], "Subnets": ["string"
] }, "ScheduledUpdateConfig": { "DeploymentConfig": { "AutoRollbackConfiguration": [ { "AlarmName":"string"
} ], "RollingUpdatePolicy": { "MaximumBatchSize": { "Type":"string"
, "Value":number
}, "RollbackMaximumBatchSize": { "Type":"string"
, "Value":number
} }, "WaitIntervalInSeconds":number
}, "ScheduleExpression":"string"
}, "ThreadsPerCore":number
, "TrainingPlanArn":"string"
} ], "VpcConfig": { "SecurityGroupIds": ["string"
], "Subnets": ["string"
] }, "Tags": [{ "Key":"string"
, "Value":"string"
}], "Orchestrator": { "Eks": { "ClusterArn":"string"
, } }, "NodeRecovery": "Automatic" }Observe o seguinte ao configurar para criar um novo SageMaker HyperPod cluster associado a um cluster EKS.
-
Você pode configurar até 20 grupos de instâncias sob o
InstanceGroups
parâmetro. -
Para
Orchestator.Eks.ClusterArn
, especifique o ARN do cluster do EKS que você deseja usar como orquestrador. -
Para
OnStartDeepHealthChecks
, adicioneInstanceStress
eInstanceConnectivity
para ativar Verificações de integridade profundas. -
Para
NodeRecovery
, especifiqueAutomatic
para ativar a recuperação automática de nós. SageMaker HyperPod substitui ou reinicializa instâncias (nós) quando problemas são encontrados pelo agente de monitoramento de integridade. -
Para o
Tags
parâmetro, você pode adicionar tags personalizadas para gerenciar o SageMaker HyperPod cluster como um AWS recurso. Você pode adicionar tags ao seu cluster da mesma forma que as adiciona em outros serviços AWS que oferecem apoio à marcação. Para saber mais sobre a marcação de recursos da AWS em geral, consulte o Guia do usuário de AWS recursos de marcação. -
Para o parâmetro
VpcConfig
, especifique as informações da VPC usada no cluster do EKS. As sub-redes devem ser privadas.
-
-
Execute o comando create-cluster da seguinte maneira:
Importante
Ao executar o
create-cluster
comando com o--cli-input-json
parâmetro, você deve incluir ofile://
prefixo antes do caminho completo para o arquivo JSON. Esse prefixo é necessário para garantir que o AWS CLI reconheça a entrada como um caminho de arquivo. A omissão dofile://
prefixo resulta em um erro de parâmetro de análise.aws sagemaker create-cluster \ --cli-input-json
file://complete/path/to/create_cluster.json
Isso deve retornar o ARN do novo cluster.
Importante
Você pode usar a operação update-cluster para remover um grupo restrito de instâncias (RIG). Quando um RIG é reduzido para 0, o sistema de arquivos FSx for Lustre não será excluído. Para remover completamente o sistema de arquivos FSx for Lustre, você deve remover completamente o RIG.
A remoção de um RIG não excluirá nenhum artefato armazenado no bucket Amazon S3 gerenciado pelo serviço. No entanto, você deve garantir que todos os artefatos no sistema de arquivos do FSx Lustre estejam totalmente sincronizados com o Amazon S3 antes da remoção. Recomendamos esperar pelo menos 30 minutos após a conclusão do trabalho para garantir a sincronização completa de todos os artefatos do sistema de arquivos FSx for Lustre com o bucket Amazon S3 gerenciado pelo serviço.