As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
SageMaker HyperPod suporte a nós com várias cabeças
Você pode criar vários nós controladores (principais) em um único cluster SageMaker HyperPod Slurm, com um servindo como nó do controlador principal e os outros servindo como nós do controlador de backup. O nó controlador principal é responsável por controlar os nós de computação (processamento) e lidar com as operações do Slurm. Os nós controladores de backup monitoram constantemente o nó controlador principal. Se o nó controlador principal falhar ou deixar de responder, um dos nós controladores de backup assumirá automaticamente o controle como o novo nó principal.
A configuração de vários nós controladores em clusters SageMaker HyperPod Slurm oferece vários benefícios importantes. Elimina o risco de falha de um único nó controlador ao fornecer nós cabeça, permite failover automático para os nós de backup com uma recuperação mais rápida e possibilita que você gerencie seus próprios bancos de dados contábeis e a configuração do Slurm de forma independente.
Principais conceitos
A seguir, são apresentados detalhes sobre os conceitos relacionados ao suporte de SageMaker HyperPod vários nós controladores (cabeçotes) para clusters Slurm.
Nó controlador
Um nó controlador é uma EC2 instância da Amazon dentro de um cluster que executa serviços essenciais do Slurm para gerenciar e coordenar as operações do cluster. Mais especificamente, ele hospeda o daemon controlador do Slurm (slurmctld)
Nó controlador principal
O nó controlador principal é o nó ativo e que detém o controle no momento em um cluster do Slurm. Ele é identificado pelo Slurm como o nó controlador principal responsável pelo gerenciamento do cluster. O nó controlador principal recebe e executa comandos dos usuários para controlar e alocar recursos nos nós de computação e executar tarefas.
Nó controlador de backup
O nó controlador de backup é um nó controlador inativo e em espera em um cluster do Slurm. Ele é identificado pelo Slurm como um nó controlador de backup que não está gerenciando o cluster no momento. O nó controlador de backup executa o daemon controlador do Slurm (slurmctld)
Nó de computação
Um nó de computação é uma EC2 instância da Amazon dentro de um cluster que hospeda o daemon de trabalho do Slurm (slurmd
Como funciona
O diagrama a seguir ilustra como diferentes AWS serviços trabalham juntos para dar suporte à arquitetura de vários nós controladores (principais) dos clusters SageMaker HyperPod Slurm.
Os AWS serviços que trabalham juntos para dar suporte à arquitetura de SageMaker HyperPod vários nós controladores (cabeçotes) incluem o seguinte.
| Serviço | Description |
|---|---|
| IAM (AWS Identity and Access Management) | Define dois perfis do IAM para controlar as permissões de acesso: um para o grupo de instâncias do nó de computação e outro para o grupo de instâncias do nó controlador. |
| Amazon RDS para MariaDB | Armazena dados contábeis do Slurm, que contêm registros de tarefas e dados de medição. |
| AWS Secrets Manager | Armazena e gerencia credenciais que podem ser acessadas pela Amazon FSx for Lustre. |
| Amazon FSx para Lustre | Armazena as configurações e o estado do runtime do Slurm. |
| Amazon VPC | Fornece um ambiente de rede isolado onde o HyperPod cluster e seus recursos são implantados. |
| Amazon SNS | Envia notificações aos administradores quando há alterações de status (o controlador do Slurm está ON ou OFF) relacionadas ao nó controlador principal (cabeça). |
O HyperPod cluster em si consiste em nós controladores (primários e de backup) e nós de computação. Os nós do controlador executam os componentes controlador (SlurmCtld) e banco de dados (Slurm) do SlurmDBd, que gerenciam e monitoram a carga de trabalho nos nós de computação.
Os nós do controlador acessam as configurações do Slurm e o estado de execução armazenados no sistema de arquivos Amazon FSx for Lustre. Os dados contábeis do Slurm são armazenados no banco de dados Amazon RDS for MariaDB. AWS Secrets Managerfornece acesso seguro às credenciais do banco de dados para os nós do controlador.
Se houver uma alteração de status (o controlador do Slurm estiver ON ou OFF) nos nós controladores do Slurm, o Amazon SNS enviará notificações ao administrador para outras adicionais.
Essa arquitetura de vários nós controladores elimina o ponto único de falha de um único nó controlador (cabeça), permite a recuperação rápida e automática do failover e oferece controle sobre o banco de dados contábil e as configurações do Slurm.