Execute um trabalho de treinamento distribuído do SageMaker com paralelismo de modelos

Aprenda a executar um trabalho de treinamento paralelo ao modelo com seu próprio script de treinamento usando o SDK do SageMaker Python com a biblioteca de paralelismo de modelos do SageMaker.

Há três cenários de uso para executar um trabalho de treinamento do SageMaker.

Você pode usar um dos contêineres de aprendizado profundo AWS predefinidos para TensorFlow e PyTorch. Essa opção é recomendada se for a primeira vez que você usa a biblioteca paralela de modelos. Para encontrar um tutorial sobre como executar uma tarefa de treinamento de paralelismo do modelo do SageMaker, consulte os exemplos de caderno no treinamento do PyTorch com a biblioteca de paralelismo de modelos do Amazon SageMaker AI.
Você pode personalizar esses contêineres predefinidos ou estendê-los para lidar com qualquer requisito funcional adicional para seu algoritmo ou modelo ao qual a imagem predefinida do Docker do SageMaker não oferece suporte. Para encontrar um exemplo de como você pode estender um contêiner predefinido, consulte Estenda uma imagem de contêiner predefinida.
Você pode adaptar seu próprio contêiner do Docker para trabalhar com o SageMaker AI usando o kit de ferramentas de treinamento do SageMaker. Por exemplo, consulte Adaptando seu próprio contêiner de treinamento.

Para ver as opções 2 e 3 na lista anterior, consulte Estenda um contêiner Docker predefinido que contém a biblioteca paralela de modelos distribuídos do SageMaker para saber como instalar a biblioteca paralela de modelos em um contêiner Docker estendido ou personalizado.

Em todos os casos, você inicia seu trabalho de treinamento configurando um SageMaker TensorFlow ou PyTorch um estimador para ativar a biblioteca. Para saber mais, consulte os tópicos a seguir.

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Support para FlashAttention

Etapa 1: modifique seu próprio script de treinamento