As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Treinamento de spot gerenciado no Amazon SageMaker AI
O Amazon SageMaker AI facilita o treinamento de modelos de machine learning usando instâncias spot gerenciadas do Amazon EC2. O treinamento de spot gerenciado pode otimizar o custo do treinamento de modelos em até 90% em relação às instâncias sob demanda. O SageMaker AI gerencia as interrupções de spot em seu nome.
O treinamento de spot gerenciado usa a instância spot do Amazon EC2 para executar trabalhos de treinamento em vez de instâncias sob demanda. Você pode especificar quais tarefas de treinamento usam instâncias spot e uma condição de interrupção que especifique quanto tempo o SageMaker AI deve aguardar para que um trabalho seja executado usando instâncias spot do Amazon EC2. As métricas e os logs gerados durante as execuções de treinamento estão disponíveis no CloudWatch.
O Ajuste Automático de Modelos do Amazon SageMaker AI, também conhecido como ajuste de hiperparâmetros, pode usar treinamento de spot gerenciado. Para obter mais informações sobre juste automático de modelos consulte Ajuste automático do modelo com SageMaker IA.
As instâncias spot podem ser interrompidas, fazendo com que os trabalhos decorram mais tempo para serem iniciados ou concluídos. Você pode configurar seu trabalho de treinamento spot gerenciado para usar pontos de verificação. O SageMaker AI copia dados do ponto de verificação de um caminho local para o Amazon S3. Quando o trabalho é reiniciado, o SageMaker AI copia os dados do Amazon S3 de volta para o caminho local. Depois, o trabalho de treinamento pode ser retomado a partir do último ponto de verificação, em vez de reiniciado. Para obter mais informações sobre definição de pontos de verificação, consulte Pontos de verificação no Amazon SageMaker AI.
nota
A menos que o trabalho de treinamento seja concluído rapidamente, recomendamos o uso de pontos de verificação com o treinamento gerenciado de spots. Os algoritmos integrados do SageMaker AI e os algoritmos do marketplace que não usam ponto de verificação no momento estão limitados a um MaxWaitTimeInSeconds de 3.600 segundos (60 minutos).
Para usar o treinamento gerenciado de spots, crie um trabalho de treinamento. Defina EnableManagedSpotTraining como True e especifique o MaxWaitTimeInSeconds. MaxWaitTimeInSeconds deve ser maior que MaxRuntimeInSeconds. Para obter mais informações sobre como criar um trabalho de treinamento, consulte DescribeTrainingJob.
Você pode calcular a economia do uso do treinamento gerenciado de spots usando a fórmula (1 -
(BillableTimeInSeconds / TrainingTimeInSeconds)) * 100. Por exemplo, se BillableTimeInSeconds for 100 e TrainingTimeInSeconds for 500, isso significa que seu trabalho de treinamento foi executado por 500 segundos, mas você foi cobrado por apenas 100 segundos. Sua economia é (1 - (100 / 500)) * 100 = 80%.
Para saber como executar tarefas de treinamento em instâncias spot do Amazon SageMaker AI e como o treinamento de spot gerenciado funciona e reduz o tempo faturável, veja os seguintes exemplos de caderno: