As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Refinamento de dados durante o treinamento com a seleção inteligente do Amazon SageMaker
A seleção inteligente do SageMaker é um recurso do SageMaker Training que ajuda a melhorar a eficiência dos conjuntos de dados de treinamento e a reduzir o tempo e o custo totais do treinamento.
Modelos modernos de aprendizado profundo, como grandes modelos de linguagem (LLMs) ou modelos tipo transformadores de visão, geralmente exigem grandes conjuntos de dados para obter uma precisão aceitável. Por exemplo, os LLMs geralmente exigem trilhões de tokens ou petabytes de dados para convergir. O tamanho crescente dos conjuntos de dados de treinamento, junto com o tamanho dos modelos de última geração, pode aumentar o tempo de computação e o custo do treinamento de modelos.
Invariavelmente, as amostras em um conjunto de dados não contribuem igualmente para o processo de aprendizado durante o treinamento de modelos. Uma proporção significativa dos recursos computacionais provisionados durante o treinamento pode ser gasta no processamento de amostras fáceis que não contribuem substancialmente para a precisão geral de um modelo. Idealmente, os conjuntos de dados de treinamento incluiriam apenas amostras que estão realmente melhorando a convergência do modelo. Filtrar dados menos úteis pode reduzir o tempo de treinamento e o custo de computação. No entanto, identificar dados menos úteis pode ser desafiador e arriscado. Na prática, é difícil identificar quais amostras são menos informativas antes do treinamento, e a precisão do modelo pode ser afetada se as amostras erradas ou muitas amostras forem excluídas.
A filtragem inteligente de dados com o Amazon SageMaker AI pode ajudar a reduzir o tempo e o custo do treinamento melhorando a eficiência dos dados. O algoritmo de seleção inteligente do SageMaker avalia o valor da perda de cada dado durante o estágio de carregamento de dados de um trabalho de treinamento e exclui amostras que são menos informativas para o modelo. Ao usar dados refinados para treinamento, o tempo e o custo totais do treinamento de seu modelo são reduzidos ao eliminar transferências desnecessárias para frente e para trás de dados que não melhoram. Portanto, há um impacto mínimo ou nenhum impacto na precisão do modelo.
A seleção inteligente do SageMaker está disponível por meio do treinamento de contêineres de aprendizado profundo (DLCs) do SageMaker e é compatível com workloads do PyTorch por meio do PyTorch DataLoader. São necessárias apenas algumas linhas de alteração de código para implementar a seleção inteligente do SageMaker, e você não precisa alterar seus fluxos de trabalho de treinamento ou processamento de dados existentes.