As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
JSON (AWS CLI)
As regras integradas do Amazon SageMaker Debugger podem ser configuradas para uma tarefa de treinamento usando os objetos DebugHookConfig, DebugRuleConfiguration, ProfilerConfig e ProfilerRuleConfiguration por meio da operação de API CreateTrainingJob do SageMaker AI. Você precisa especificar o URI da imagem correto no parâmetro RuleEvaluatorImage e os exemplos demonstram como configurar as strings JSON para solicitar CreateTrainingJob.
O código a seguir mostra um modelo JSON completo para executar uma tarefa de treinamento com as configurações exigidas e as configurações do Debugger. Salve o modelo como um arquivo JSON em seu diretório de trabalho e execute a tarefa de treinamento usando a CLI do AWS. Por exemplo, salve o código a seguir como debugger-training-job-cli.json.
nota
Certifique-se de usar as imagens de contêiner do Docker corretas. Para encontrar imagens de contêiner de aprendizado profundo de AWS, consulte Imagens de contêiner de aprendizado profundo disponíveis
{ "TrainingJobName": "debugger-aws-cli-test", "RoleArn": "arn:aws:iam::111122223333:role/service-role/AmazonSageMaker-ExecutionRole-YYYYMMDDT123456", "AlgorithmSpecification": { // Specify a training Docker container image URI (Deep Learning Container or your own training container) to TrainingImage. "TrainingImage": "763104351884.dkr.ecr.us-west-2.amazonaws.com/tensorflow-training:2.4.1-gpu-py37-cu110-ubuntu18.04", "TrainingInputMode": "File", "EnableSageMakerMetricsTimeSeries": false }, "HyperParameters": { "sagemaker_program": "entry_point/tf-hvd-train.py", "sagemaker_submit_directory": "s3://sagemaker-us-west-2-111122223333/debugger-boto3-profiling-test/source.tar.gz" }, "OutputDataConfig": { "S3OutputPath": "s3://sagemaker-us-west-2-111122223333/debugger-aws-cli-test/output" }, "DebugHookConfig": { "S3OutputPath": "s3://sagemaker-us-west-2-111122223333/debugger-aws-cli-test/debug-output", "CollectionConfigurations": [ { "CollectionName": "losses", "CollectionParameters" : { "train.save_interval": "50" } } ] }, "DebugRuleConfigurations": [ { "RuleConfigurationName": "LossNotDecreasing", "RuleEvaluatorImage": "895741380848.dkr.ecr.us-west-2.amazonaws.com/sagemaker-debugger-rules:latest", "RuleParameters": {"rule_to_invoke": "LossNotDecreasing"} } ], "ProfilerConfig": { "S3OutputPath": "s3://sagemaker-us-west-2-111122223333/debugger-aws-cli-test/profiler-output", "ProfilingIntervalInMilliseconds":500, "ProfilingParameters": { "DataloaderProfilingConfig": "{\"StartStep\":5, \"NumSteps\":3, \"MetricsRegex\": \".*\", }", "DetailedProfilingConfig": "{\"StartStep\":5, \"NumSteps\":3, }", "PythonProfilingConfig": "{\"StartStep\":5, \"NumSteps\":3, \"ProfilerName\": \"cprofile\", \"cProfileTimer\": \"total_time\"}", "LocalPath": "/opt/ml/output/profiler/" } }, "ProfilerRuleConfigurations": [ { "RuleConfigurationName": "ProfilerReport", "RuleEvaluatorImage": "895741380848.dkr.ecr.us-west-2.amazonaws.com/sagemaker-debugger-rules:latest", "RuleParameters": {"rule_to_invoke": "ProfilerReport"} } ], "ResourceConfig": { "InstanceType": "ml.p3.8xlarge", "InstanceCount":1, "VolumeSizeInGB": 30 }, "StoppingCondition": { "MaxRuntimeInSeconds":86400} }
Depois de salvar o arquivo JSON, execute o seguinte comando em seu terminal: (Use ! no início da linha se você usa o caderno Jupyter.)
aws sagemaker create-training-job --cli-input-json file://debugger-training-job-cli.json
Para configurar uma regra do Debugger para depurar os parâmetros do modelo
O exemplo de código a seguir mostra como configurar uma regra integrada VanishingGradient usando esta API do SageMaker.
Para habilitar o Debugger para coletar tensores de saída
Especifique a configuração do hook do Debugger da seguinte forma:
"DebugHookConfig": { "S3OutputPath": "s3://<default-bucket>/<training-job-name>/debug-output", "CollectionConfigurations": [ { "CollectionName": "gradients", "CollectionParameters" : { "save_interval": "500" } } ] }
Isso fará com que a tarefa de treinamento salve a coleção de tensores, gradients, a cada save_interval de 500 etapas. Para encontrar os valores de CollectionName disponíveis, consulte coleções integradas do DebuggerCollectionParameters disponíveis, consulte a classe sagemaker.debugger.CollectionConfig
Para habilitar as regras do Debugger para depurar os tensores de saída
O exemplo de API DebugRuleConfigurations a seguir mostra como executar a regra integrada doVanishingGradient na coleção gradients salva.
"DebugRuleConfigurations": [ { "RuleConfigurationName": "VanishingGradient", "RuleEvaluatorImage": "503895931360.dkr.ecr.us-east-1.amazonaws.com/sagemaker-debugger-rules:latest", "RuleParameters": { "rule_to_invoke": "VanishingGradient", "threshold": "20.0" } } ]
Com uma configuração como a desse exemplo, o Debugger inicia uma tarefa de avaliação de regra para a tarefa de treinamento usando a regra VanishingGradient na coleção do tensor de gradients. Para encontrar uma lista completa das imagens do Docker disponíveis para usar as regras do Debugger, consulte Imagens do Docker para regras do Depurador. Para encontrar os pares de valores-chave para RuleParameters, consulte Lista de regras integradas do Depurador.
Para configurar a regra integrada do Debugger para criar perfis do sistema e métricas do framework
O código de exemplo a seguir mostra como especificar a operação de API ProfilerConfig para habilitar a coleta de métricas do sistema e do framework.
Para habilitar a criação de perfil do Debugger para coletar métricas do sistema e da estrutura
Para habilitar as regras do Debugger para criar perfil das métricas
O código de exemplo a seguir mostra como configurar a regra ProfilerReport.
"ProfilerRuleConfigurations": [ { "RuleConfigurationName": "ProfilerReport", "RuleEvaluatorImage": "895741380848.dkr.ecr.us-west-2.amazonaws.com/sagemaker-debugger-rules:latest", "RuleParameters": { "rule_to_invoke": "ProfilerReport", "CPUBottleneck_cpu_threshold": "90", "IOBottleneck_threshold": "90" } } ]
Para encontrar uma lista completa das imagens do Docker disponíveis para usar as regras do Debugger, consulte Imagens do Docker para regras do Depurador. Para encontrar os pares de valores-chave para RuleParameters, consulte Lista de regras integradas do Depurador.
Atualização da configuração de perfil do Depurador com API UpdateTrainingJob
A configuração de perfil do Debugger pode ser atualizada enquanto sua tarefa de treinamento está em execução usando a operação de API UpdateTrainingJob. Configure os novos objetos ProfilerConfig e ProfileRuleConfiguration e especifique o nome da tarefa de treinamento para o parâmetro TrainingJobName.
{ "ProfilerConfig": { "DisableProfiler":boolean, "ProfilingIntervalInMilliseconds":number, "ProfilingParameters": { "string" : "string" } }, "ProfilerRuleConfigurations": [ { "RuleConfigurationName": "string", "RuleEvaluatorImage": "string", "RuleParameters": { "string" : "string" } } ], "TrainingJobName": "your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS" }
Adicione a configuração de regra personalizada do Depurador à API CreateTrainingJob
Uma regra personalizada pode ser configurada para uma tarefa de treinamento usando os objetos DebugHookConfig e DebugRuleConfiguration na operação de API CreateTrainingJob. O exemplo de código a seguir mostra como configurar uma regra ImproperActivation personalizada escrita com a biblioteca smdebug usando essa operação de API do SageMaker. Este exemplo pressupõe que você tenha escrito a regra personalizada no arquivo custom_rules.py e o tenha carregado em um bucket do Amazon S3. O exemplo fornece imagens pré-criadas do Docker que podem ser usadas para executar as regras personalizadas. Elas estão listadas em URLs de registro do Amazon SageMaker Debugger para avaliadores de regras personalizadas.. Você especifica o endereço de registro de URL para a imagem pré-criada do Docker no parâmetro RuleEvaluatorImage.
"DebugHookConfig": { "S3OutputPath": "s3://<default-bucket>/<training-job-name>/debug-output", "CollectionConfigurations": [ { "CollectionName": "relu_activations", "CollectionParameters": { "include_regex": "relu", "save_interval": "500", "end_step": "5000" } } ] }, "DebugRulesConfigurations": [ { "RuleConfigurationName": "improper_activation_job", "RuleEvaluatorImage": "552407032007.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rule-evaluator:latest", "InstanceType": "ml.c4.xlarge", "VolumeSizeInGB":400, "RuleParameters": { "source_s3_uri": "s3://bucket/custom_rules.py", "rule_to_invoke": "ImproperActivation", "collection_names": "relu_activations" } } ]
Para encontrar uma lista completa das imagens do Docker disponíveis para usar as regras do Debugger, consulte Imagens do Docker para regras do Depurador. Para encontrar os pares de valores-chave para RuleParameters, consulte Lista de regras integradas do Depurador.