Como funciona a seleção inteligente do SageMaker

O objetivo da seleção inteligente do SageMaker é examinar seus dados de treinamento durante o processo de treinamento e fornecer apenas mais amostras informativas ao modelo. Durante o treinamento típico com o PyTorch, os dados são enviados iterativamente em lotes para o ciclo de treinamento e para dispositivos aceleradores (como GPUs ou chips Trainium) pelo PyTorch DataLoader. A seleção inteligente do SageMaker é implementada nesse estágio de carregamento de dados e, portanto, é independente de qualquer pré-processamento inicial de dados em seu pipeline de treinamento. A seleção inteligente do SageMaker usa seu modelo e sua função de perda especificada pelo usuário para fazer um avanço avaliativo de cada amostra de dados à medida que ela é carregada. As amostras que retornam valores de baixa perda têm menos impacto no aprendizado do modelo e, portanto, são excluídas do treinamento, porque já é fácil para o modelo fazer a predição correta sobre elas com alta confiança. Enquanto isso, essas amostras de perda relativamente alta são o que o modelo ainda precisa aprender, então elas são mantidas para treinamento. Uma entrada importante que você pode definir para a seleção inteligente do SageMaker é a proporção de dados a serem excluídos. Por exemplo, ao definir a proporção em 25%, as amostras distribuídas no quartil mais baixo da distribuição da perda (retiradas de um número especificado pelo usuário de amostras anteriores) são excluídas do treinamento. Amostras de alta perda são acumuladas em um lote de dados refinado. O lote de dados refinado é enviado para o ciclo de treinamento (avanço e retrocesso de passagem), e o modelo aprende e treina no lote de dados refinado.

O diagrama a seguir mostra uma visão geral de como o algoritmo de seleção inteligente do SageMaker foi projetado.

Diagrama de arquitetura de como a seleção inteligente do SageMaker opera durante o treinamento à medida que os dados são carregados.

Resumindo, a seleção inteligente do SageMaker opera durante o treinamento à medida que os dados são carregados. O algoritmo de seleção inteligente do SageMaker executa o cálculo de perdas nos lotes e classifica os dados que não estão melhorando antes do avanço e retrocesso da passagem cada iteração. O lote de dados refinado é então usado para avançar e retroceder.

nota

A filtragem inteligente de dados no SageMaker AI usa passos adicionais para analisar e filtrar seus dados de treinamento. Por sua vez, há menos retrocessos, pois dados menos impactantes são excluídos do seu trabalho de treinamento. Por esse motivo, os modelos que têm retrocessos longos ou caros obtêm os maiores ganhos de eficiência ao usar a seleção inteligente. Enquanto isso, se o avanço do seu modelo demorar mais do que o retrocesso, a sobrecarga poderá aumentar o tempo total de treinamento. Para medir o tempo gasto em cada passagem, você pode executar um trabalho de treinamento piloto e coletar logs que registram o tempo nos processos. Considere também usar o SageMaker Profiler, que fornece ferramentas de criação de perfil e aplicações de interface do usuário. Para saber mais, consulte Amazon SageMaker Profiler.

A seleção inteligente do SageMaker funciona para tarefas de treinamento baseadas em PyTorch com o paralelismo clássico de dados distribuídos, que cria réplicas de modelos em cada operador da GPU e executa AllReduce. Ele funciona com o PyTorch DDP e a biblioteca de paralelismo de dados distribuídos do SageMaker AI.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Refinamento de dados durante o treinamento

Estruturas e regiões da AWS compatíveis