Acesse os dados do perfil - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Acesse os dados do perfil

A classe TrainingJob do SMDebug lê dados do bucket do S3 em que as métricas do sistema e da estrutura são salvas.

Para configurar um objeto TrainingJob e recuperar arquivos de eventos de criação de perfil de um trabalho de treinamento

from smdebug.profiler.analysis.notebook_utils.training_job import TrainingJob tj = TrainingJob(training_job_name, region)
dica

Você precisa especificar os parâmetros training_job_name e region para se registrar em um trabalho de treinamento. Há duas maneiras de especificar as informações do trabalho de treinamento:

  • Use o SageMaker Python SDK enquanto o estimador ainda estiver vinculado ao trabalho de treinamento.

    import sagemaker training_job_name=estimator.latest_training_job.job_name region=sagemaker.Session().boto_region_name
  • Passe os strings diretamente.

    training_job_name="your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS" region="us-west-2"
nota

Por padrão, o SageMaker Debugger coleta métricas do sistema para monitorar a utilização dos recursos de hardware e os gargalos do sistema. Executando as funções a seguir, você pode receber mensagens de erro relacionadas à indisponibilidade das métricas da estrutura. Para recuperar dados de criação de perfil da estrutura e obter informações sobre as operações da estrutura, habilite a criação de perfil da estrutura.

Para recuperar uma descrição da descrição do trabalho de treinamento e o URI do bucket do S3 em que os dados métricos são salvos

tj.describe_training_job() tj.get_config_and_profiler_s3_output_path()

Para verificar se as métricas do sistema e da estrutura estão disponíveis no URI do S3

tj.wait_for_sys_profiling_data_to_be_available() tj.wait_for_framework_profiling_data_to_be_available()

Para criar objetos de leitura do sistema e da estrutura após a disponibilização dos dados métricos

system_metrics_reader = tj.get_systems_metrics_reader() framework_metrics_reader = tj.get_framework_metrics_reader()

Para atualizar e recuperar os arquivos mais recentes do evento de treinamento

Os objetos do leitor têm um método estendido, refresh_event_file_list(), para recuperar os arquivos de eventos de treinamento mais recentes.

system_metrics_reader.refresh_event_file_list() framework_metrics_reader.refresh_event_file_list()