As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Habilitar pontos de verificação
Ao habilitar pontos de verificação, o SageMaker AI salva os pontos de verificação no Amazon S3 e sincroniza sua tarefa de treinamento com o bucket do S3 do ponto de verificação. Você pode usar buckets de uso geral do S3 ou de diretório do S3 para o ponto de verificação do bucket do S3.
O exemplo a seguir mostra como configurar caminhos de ponto de verificação ao criar um estimador do SageMaker AI. Para habilitar pontos de verificação, adicione os parâmetros checkpoint_s3_uri e checkpoint_local_path ao seu estimador.
O modelo de exemplo a seguir mostra como criar um estimador genérico do SageMaker AI e habilitar pontos de verificação. Você pode usar esse modelo para os algoritmos compatíveis especificando o parâmetro image_uri. Para encontrar URIs de imagem do Docker para algoritmos com pontos de verificação compatíveis com o SageMaker AI, consulte Docker Registry Paths and Example Code. Você também pode substituir estimator e Estimator por outras classes de estimadores e classes principais de estimadores do framework do SageMaker AI, como TensorFlow, PyTorch, MXNet, HuggingFace e XGBoost.
import sagemaker from sagemaker.estimatorimportEstimatorbucket=sagemaker.Session().default_bucket() base_job_name="sagemaker-checkpoint-test" checkpoint_in_bucket="checkpoints" # The S3 URI to store the checkpoints checkpoint_s3_bucket="s3://{}/{}/{}".format(bucket, base_job_name, checkpoint_in_bucket) # The local path where the model will save its checkpoints in the training container checkpoint_local_path="/opt/ml/checkpoints" estimator =Estimator( ... image_uri="<ecr_path>/<algorithm-name>:<tag>" # Specify to use built-in algorithms output_path=bucket, base_job_name=base_job_name, # Parameters required to enable checkpointing checkpoint_s3_uri=checkpoint_s3_bucket, checkpoint_local_path=checkpoint_local_path )
Os dois parâmetros a seguir especificam caminhos para pontos de verificação:
-
checkpoint_local_path: especifique o caminho local em que o modelo salva os pontos de verificação periodicamente em um contêiner de treinamento. O caminho padrão é definido como'/opt/ml/checkpoints'. Se você estiver usando outros frameworks ou trazendo seu próprio contêiner de treinamento, certifique-se de que a configuração do ponto de verificação do seu script de treinamento especifique o caminho para'/opt/ml/checkpoints'.nota
Recomendamos especificar os caminhos locais como
'/opt/ml/checkpoints'para que sejam consistentes com as configurações padrão do ponto de verificação do SageMaker AI. Se você preferir especificar seu próprio caminho local, ele deve corresponder ao caminho de salvamento do ponto de verificação em seu script de treinamento e ao parâmetrocheckpoint_local_pathdos estimadores do SageMaker AI. -
checkpoint_s3_uri: URI para um bucket do S3 em que os pontos de verificação são armazenados em tempo real. Você pode especificar um bucket de uso geral do S3 ou de diretório do S3 para armazenar os pontos de verificação. Para mais informações sobre os buckets do diretório do S3, consulte Buckets de diretório no Guia do usuário do Amazon Simple Storage Service.
Para encontrar uma lista completa de parâmetros de estimador do SageMaker AI, consulte a Estimator API