As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Pontos de verificação no Amazon SageMaker AI
Use pontos de verificação no Amazon SageMaker AI para salvar o estado dos modelos de machine learning (ML) durante o treinamento. Os pontos de verificação são snapshots do modelo e podem ser configurados pelas funções de retorno de chamada dos frameworks de ML. Você pode usar pontos de verificação salvos para reiniciar um trabalho de treinamento a partir do ponto de verificação salvo pela última vez.
Usando pontos de verificação, você pode fazer o seguinte:
-
Salvar os snapshots do seu modelo durante o treinamento devido a uma interrupção inesperada na instância ou trabalho de treinamento.
-
Retome o treinamento do modelo no futuro a partir de um ponto de verificação.
-
Analise o modelo em estágios intermediários de treinamento.
-
Use pontos de verificação com a classe S3 Express One Zone para ter mais velocidade de acesso.
-
Use pontos de verificação com o treinamento de spot gerenciado pelo SageMaker AI para reduzir os custos de treinamento.
O mecanismo de treinamento do SageMaker usa contêineres de treinamento em instâncias do Amazon EC2 e os arquivos do ponto de verificação são salvos em um diretório local dos contêineres (o padrão é /opt/ml/checkpoints). O SageMaker AI permite copiar os pontos de verificação do caminho local para o Amazon S3 e sincronizar automaticamente os pontos de verificação desse diretório com o S3. Os pontos de verificação existentes no S3 são gravados no contêiner do SageMaker AI no início do trabalho, permitindo que os trabalhos sejam retomados a partir de um ponto de verificação. Os pontos de verificação adicionados à pasta S3 após o início do trabalho não são copiados para o contêiner de treinamento. O SageMaker AI também grava novos pontos de verificação do contêiner no S3 durante o treinamento. Se um ponto de verificação for excluído do contêiner do SageMaker AI, ele também será excluído da pasta do S3.
Você pode usar pontos de verificação no Amazon SageMaker AI com a classe de armazenamento Amazon S3 Express One Zone (S3 Express One Zone) para ter acesso mais rápido aos pontos de verificação. Ao ativar o ponto de verificação e especificar o URI do S3 para o destino de armazenamento do ponto de verificação, você pode fornecer um URI do S3 para uma pasta em um bucket de uso geral do S3 ou em um bucket de diretório do S3. Os buckets de diretório do S3 integrados ao SageMaker AI só podem ser criptografados com criptografia do lado do servidor com chaves gerenciadas pelo Amazon S3 (SSE-S3). A criptografia do lado do servidor com as chaves AWS KMS (SSE-KMS) não é compatível. Para ter mais informações sobre a classe S3 Express One Zone e os buckets de diretório do S3, consulte O que é a classe S3 Express One Zone.
Se você estiver usando pontos de verificação com o treinamento de spot gerenciado pelo SageMaker AI, o SageMaker AI gerenciará os pontos de verificação do seu modelo de treinamento em uma instância spot e retomará a tarefa de treinamento na próxima instância spot. Com o treinamento de spot gerenciado pelo SageMaker AI, você pode reduzir significativamente o tempo faturável para treinar modelos de ML. Para ter mais informações, consulte Treinamento de spot gerenciado no Amazon SageMaker AI.
Tópicos
Pontos de verificação para frameworks e algoritmos no SageMaker AI
Use pontos de verificação para salvar snapshots de modelos de ML criados em frameworks de sua preferência no SageMaker AI.
Frameworks e algoritmos do SageMaker AI que permitem o uso de pontos de verificação
O SageMaker AI permite usar pontos de verificação para contêineres de deep learningAWS e um subconjunto de algoritmos integrados sem exigir alterações no script de treinamento. Ele salva os pontos de verificação no caminho local padrão '/opt/ml/checkpoints' e os copia para o Amazon S3.
-
Contêineres de Aprendizado Profundo: TensorFlow
, PyTorch , MXNet e HuggingFace nota
Se você estiver usando o estimador de framework do HuggingFace, precisará especificar um caminho de saída do ponto de verificação por meio de hiperparâmetros. Para ter mais informações, consulte Run training on Amazon SageMaker AI
na documentação da Hugging Face. -
Algoritmos integrados: classificação de imagens, detecção de objetos, segmentação semântica e XGBoost (0.90-1 ou posterior)
nota
Se você estiver usando o algoritmo XGBoost no modo de framework (modo script), precisará trazer um script de treinamento do XGBoost com ponto de verificação configurado manualmente. Para obter mais informações sobre os métodos de treinamento do XGBoost para salvar snapshots do modelo, consulte Treinamento do XGBoost
na documentação do XGBoost Python SDK.
Se um algoritmo predefinido que não é compatível com pontos de verificação for usado em uma tarefa de treinamento de spot gerenciado, o SageMaker AI não permitirá um tempo de espera máximo acima de uma hora para a tarefa, a fim de limitar o tempo de treinamento desperdiçado devido a interrupções.
Para contêineres de treinamento personalizados e outros frameworks
Se você estiver usando seus próprios contêineres de treinamento, scripts de treinamento ou outros frameworks não listados na seção anterior, deverá configurar adequadamente seu script de treinamento usando retornos de chamada ou APIs de treinamento para salvar pontos de verificação no caminho local ('/opt/ml/checkpoints') e carregar a partir do caminho local em seu script de treinamento. Os estimadores do SageMaker AI podem se sincronizar com o caminho local e salvar os pontos de verificação no Amazon S3.
Considerações sobre pontos de verificação
Leve em consideração o seguinte ao usar pontos de verificação no SageMaker AI:
-
Para evitar substituições em treinamentos distribuídos com várias instâncias, você deve configurar manualmente os nomes e caminhos dos arquivos do ponto de verificação em seu script de treinamento. A configuração geral de pontos de verificação do SageMaker AI especifica um único local do Amazon S3 sem sufixos ou prefixos adicionais para marcar pontos de verificação de várias instâncias.
-
O SageMaker Python SDK não oferece apoio à configuração de alto nível para frequência de pontos de verificação. Para controlar a frequência de pontos de verificação, modifique seu script de treinamento usando as funções de salvamento do modelo ou os retornos de chamada do ponto de verificação do framekwork.
-
Se você usa pontos de verificação do SageMaker AI com o SageMaker Debugger e dados distribuídos do SageMaker AI, e está enfrentando problemas, consulte as páginas a seguir para solução de problemas e considerações.