As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Amazon SageMaker HyperPod
SageMaker HyperPod ajuda você a provisionar clusters resilientes para executar cargas de trabalho de aprendizado de máquina (ML) e desenvolver state-of-the-art modelos como modelos de linguagem grande (LLMs), modelos de difusão e modelos básicos (). FMs Ele acelera o desenvolvimento ao remover o trabalho pesado indiferenciado envolvido na criação e manutenção de clusters de computação em grande escala, alimentados por milhares de aceleradores, como AWS Trainium e unidades de processamento gráfico NVIDIA A100 e H100 (). FMs GPUs Quando os aceleradores falham, os recursos de resiliência do SageMaker HyperPod monitor das instâncias do cluster detectam e substituem automaticamente o hardware defeituoso em tempo real, para que você possa se concentrar na execução de cargas de trabalho de ML.
Para começar, verifique Pré-requisitos para usar o SageMaker HyperPodAWS Identity and Access Management para SageMaker HyperPod, configure e escolha uma das seguintes opções de orquestrador suportadas pelo. SageMaker HyperPod
Suporte para Slurm em SageMaker HyperPod
SageMaker HyperPod fornece suporte para executar cargas de trabalho de aprendizado de máquina em clusters resilientes por meio da integração com o Slurm, um gerenciador de carga de trabalho de código aberto. O suporte ao Slurm SageMaker HyperPod permite a orquestração perfeita do cluster por meio da configuração do cluster do Slurm, permitindo que você configure nós principais, de login e de trabalho nos SageMaker HyperPod clusters. Essa integração também facilita o agendamento de tarefas baseado no Slurm para executar cargas de trabalho de ML no cluster, bem como o acesso direto aos nós do cluster para agendamento de trabalhos. Com HyperPod o suporte à configuração do ciclo de vida, você pode personalizar o ambiente de computação dos clusters para atender às suas necessidades específicas. Além disso, ao aproveitar as bibliotecas de treinamento distribuídas da Amazon SageMaker AI, você pode otimizar o desempenho dos clusters em AWS recursos de computação e rede. Para saber mais, consulte Orquestrando SageMaker HyperPod clusters com o Slurm.
Suporte ao Amazon EKS em SageMaker HyperPod
SageMaker HyperPod também se integra ao Amazon EKS para permitir o treinamento em grande escala de modelos básicos em clusters computacionais resilientes e de longa duração. Isso permite que os usuários administradores do cluster provisionem HyperPod clusters e os conectem a um plano de controle EKS, permitindo o gerenciamento dinâmico da capacidade, acesso direto às instâncias do cluster e recursos de resiliência. Para cientistas de dados, o suporte do Amazon EKS HyperPod permite executar cargas de trabalho em contêineres para treinar modelos básicos, inferir no cluster EKS e aproveitar o recurso de retomada automática de trabalhos para treinamento em Kubeflow. PyTorch A arquitetura envolve um mapeamento 1 para 1 entre um cluster EKS (plano de controle) e um HyperPod cluster (nós de trabalho) em uma VPC, fornecendo uma solução totalmente integrada para executar cargas de trabalho de ML em grande escala. Para saber mais, consulte Orquestrando SageMaker HyperPod clusters com o Amazon EKS.
UltraServers with HyperPod
HyperPod com UltraServers fornece poder de computação de IA ao integrar superchips NVIDIA em uma infraestrutura coesa e de alto desempenho. Cada uma NVL72 UltraServer combina 18 instâncias com 72 NVIDIA Blackwell GPUs interconectadas via NVLink, permitindo inferência mais rápida e desempenho de treinamento mais rápido em comparação com instâncias da geração anterior. Essa arquitetura é particularmente valiosa para organizações que trabalham com modelos básicos de trilhões de parâmetros, pois a memória de GPU unificada permite que modelos inteiros permaneçam em um único NVLink domínio, eliminando gargalos de rede entre nós. HyperPod aprimora essa vantagem de hardware com agendamento inteligente com reconhecimento de topologia que otimiza o posicionamento da carga de trabalho, a substituição automática de instâncias para minimizar interrupções e opções flexíveis de implantação que oferecem suporte a configurações de recursos dedicados e compartilhados. Para equipes que ultrapassam os limites do tamanho e do desempenho do modelo, essa integração fornece a base computacional necessária para treinar e implantar os modelos de IA mais avançados com eficiência sem precedentes.
SageMaker HyperPod otimiza automaticamente o posicionamento da instância em todo o seu UltraServers. Por padrão, HyperPod prioriza todas as instâncias em uma UltraServer antes de usar uma diferente. Por exemplo, se você quiser 14 instâncias e tiver 2 UltraServers no seu plano, a SageMaker IA usa todas as instâncias da primeira UltraServer. Se você quiser 20 instâncias, a SageMaker IA usa todas as 18 instâncias na primeira UltraServer e depois usa mais 2 na segunda.
Regiões da AWS apoiado por SageMaker HyperPod
SageMaker HyperPod está disponível a seguir Regiões da AWS.
-
us-east-1
-
us-east-2
-
us-west-1
-
us-west-2
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
eu-south-2
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ap-southeast-3
-
ap-southeast-4
-
ap-northeast-1
-
sa-east-1