As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Como funciona a seleção inteligente do SageMaker
O objetivo da seleção inteligente do SageMaker é examinar seus dados de treinamento durante o processo de treinamento e fornecer apenas mais amostras informativas ao modelo. Durante o treinamento típico com o PyTorch, os dados são enviados iterativamente em lotes para o ciclo de treinamento e para dispositivos aceleradores (como GPUs ou chips Trainium) pelo PyTorch DataLoader
O diagrama a seguir mostra uma visão geral de como o algoritmo de seleção inteligente do SageMaker foi projetado.
Resumindo, a seleção inteligente do SageMaker opera durante o treinamento à medida que os dados são carregados. O algoritmo de seleção inteligente do SageMaker executa o cálculo de perdas nos lotes e classifica os dados que não estão melhorando antes do avanço e retrocesso da passagem cada iteração. O lote de dados refinado é então usado para avançar e retroceder.
nota
A filtragem inteligente de dados no SageMaker AI usa passos adicionais para analisar e filtrar seus dados de treinamento. Por sua vez, há menos retrocessos, pois dados menos impactantes são excluídos do seu trabalho de treinamento. Por esse motivo, os modelos que têm retrocessos longos ou caros obtêm os maiores ganhos de eficiência ao usar a seleção inteligente. Enquanto isso, se o avanço do seu modelo demorar mais do que o retrocesso, a sobrecarga poderá aumentar o tempo total de treinamento. Para medir o tempo gasto em cada passagem, você pode executar um trabalho de treinamento piloto e coletar logs que registram o tempo nos processos. Considere também usar o SageMaker Profiler, que fornece ferramentas de criação de perfil e aplicações de interface do usuário. Para saber mais, consulte Amazon SageMaker Profiler.
A seleção inteligente do SageMaker funciona para tarefas de treinamento baseadas em PyTorch com o paralelismo clássico de dados distribuídos, que cria réplicas de modelos em cada operador da GPU e executa AllReduce. Ele funciona com o PyTorch DDP e a biblioteca de paralelismo de dados distribuídos do SageMaker AI.