So konfigurieren Sie eine Debugger-Regel für das Debuggen von Modellparametern Um eine integrierte Debugger-Regel für das Profiling von System- und Framework-Metriken zu konfigurieren Die Profiling-Konfiguration des Debuggers mithilfe des UpdateTrainingJob API-Betriebs aktualisieren Fügen Sie die benutzerdefinierte Debugger-Regelkonfiguration zum CreateTrainingJob-API-Betrieb hinzu

SDK für Python (Boto3)

Die in Amazon SageMaker Debugger integrierten Regeln können mithilfe der create_training_job() Funktion des Clients AWS Boto3 SageMaker AI für einen Trainingsjob konfiguriert werden. Sie müssen den richtigen Image-URI im RuleEvaluatorImage Parameter angeben. Die folgenden Beispiele zeigen Ihnen, wie Sie den Anforderungstext für die create_training_job() Funktion einrichten.

Der folgende Code zeigt ein vollständiges Beispiel, wie man den Debugger für den create_training_job()-Anforderungstext konfiguriert und einen Trainingsauftrag in us-west-2 startet, unter der Annahme, dass ein Trainingsskript entry_point/train.py mit TensorFlow vorbereitet wurde. Ein umfassendes Beispiel-Notebook finden Sie unter Profiling TensorFlow Multi-GPU Multi-Knoten Trainingsauftrag mit Amazon SageMaker Debugger (Boto3).

Anmerkung

Stellen Sie sicher, dass Sie die richtigen Docker-Container-Images verwenden. Verfügbare AWS Deep-Learning-Container-Images finden Sie unter Verfügbare Deep Learning Container-Images. Eine vollständige Liste der verfügbaren Docker-Images für die Verwendung der Debugger-Regeln finden Sie unter Docker-Images für Debugger-Regeln.


import sagemaker, boto3
import datetime, tarfile

# Start setting up a SageMaker session and a Boto3 SageMaker client
session = sagemaker.Session()
region = session.boto_region_name
bucket = session.default_bucket()

# Upload a training script to a default Amazon S3 bucket of the current SageMaker session
source = 'source.tar.gz'
project = 'debugger-boto3-test'

tar = tarfile.open(source, 'w:gz')
tar.add ('entry_point/train.py') # Specify the directory and name of your training script
tar.close()

s3 = boto3.client('s3')
s3.upload_file(source, bucket, project+'/'+source)

# Set up a Boto3 session client for SageMaker
sm = boto3.Session(region_name=region).client("sagemaker")

# Start a training job
sm.create_training_job(
    TrainingJobName='debugger-boto3-'+datetime.datetime.now().strftime('%Y-%m-%d-%H-%M-%S'),
    HyperParameters={
        'sagemaker_submit_directory': 's3://'+bucket+'/'+project+'/'+source,
        'sagemaker_program': '/entry_point/train.py' # training scrip file location and name under the sagemaker_submit_directory
    },
    AlgorithmSpecification={
        # Specify a training Docker container image URI (Deep Learning Container or your own training container) to TrainingImage.
        'TrainingImage': '763104351884.dkr.ecr.us-west-2.amazonaws.com/tensorflow-training:2.4.1-gpu-py37-cu110-ubuntu18.04',
        'TrainingInputMode': 'File',
        'EnableSageMakerMetricsTimeSeries': False
    },
    RoleArn='arn:aws:iam::111122223333:role/service-role/AmazonSageMaker-ExecutionRole-20201014T161125',
    OutputDataConfig={'S3OutputPath': 's3://'+bucket+'/'+project+'/output'},
    ResourceConfig={
        'InstanceType': 'ml.p3.8xlarge',
        'InstanceCount': 1,
        'VolumeSizeInGB': 30
    },
    StoppingCondition={
        'MaxRuntimeInSeconds': 86400
    },
    DebugHookConfig={
        'S3OutputPath': 's3://'+bucket+'/'+project+'/debug-output',
        'CollectionConfigurations': [
            {
                'CollectionName': 'losses',
                'CollectionParameters' : {
                    'train.save_interval': '500',
                    'eval.save_interval': '50'
                }
            }
        ]
    },
    DebugRuleConfigurations=[
        {
            'RuleConfigurationName': 'LossNotDecreasing',
            'RuleEvaluatorImage': '895741380848.dkr.ecr.us-west-2.amazonaws.com/sagemaker-debugger-rules:latest',
            'RuleParameters': {'rule_to_invoke': 'LossNotDecreasing'}
        }
    ],
    ProfilerConfig={
        'S3OutputPath': 's3://'+bucket+'/'+project+'/profiler-output',
        'ProfilingIntervalInMilliseconds': 500,
        'ProfilingParameters': {
            'DataloaderProfilingConfig': '{"StartStep": 5, "NumSteps": 3, "MetricsRegex": ".*", }',
            'DetailedProfilingConfig': '{"StartStep": 5, "NumSteps": 3, }',
            'PythonProfilingConfig': '{"StartStep": 5, "NumSteps": 3, "ProfilerName": "cprofile", "cProfileTimer": "total_time"}',
            'LocalPath': '/opt/ml/output/profiler/' # Optional. Local path for profiling outputs
        }
    },
    ProfilerRuleConfigurations=[
        {
            'RuleConfigurationName': 'ProfilerReport',
            'RuleEvaluatorImage': '895741380848.dkr.ecr.us-west-2.amazonaws.com/sagemaker-debugger-rules:latest',
            'RuleParameters': {'rule_to_invoke': 'ProfilerReport'}
        }
    ]
)

So konfigurieren Sie eine Debugger-Regel für das Debuggen von Modellparametern

Die folgenden Codebeispiele zeigen, wie eine integrierte VanishingGradient-Regel mit dieser SageMaker-API konfiguriert werden kann.

Um zu aktivieren, dass der Debugger Ausgabetensoren sammelt

Geben Sie die Debugger-Hook-Konfiguration wie folgt an:


DebugHookConfig={
    'S3OutputPath': 's3://<default-bucket>/<training-job-name>/debug-output',
    'CollectionConfigurations': [
        {
            'CollectionName': 'gradients',
            'CollectionParameters' : {
                'train.save_interval': '500',
                'eval.save_interval': '50'
            }
        }
    ]
}

Dies führt dazu, dass der Trainingsauftrag eine Tensorsammlung, gradients, alle save_interval von 500 Schritten speichert. Informationen zu verfügbaren CollectionName Werten finden Sie unter Integrierte Debugger-Sammlungen in der Dokumentation zur SMDebug-Client-Bibliothek. Verfügbare CollectionParameters Parameterschlüssel und -werte finden Sie in der sagemaker.debugger.CollectionConfig Klasse in der SageMaker Python SDK-Dokumentation.

Um Debugger-Regeln für das Debuggen der Ausgabetensoren zu aktivieren

Das folgende DebugRuleConfigurations API-Beispiel zeigt, wie die integrierte VanishingGradient Regel für die gespeicherte gradients Sammlung ausgeführt wird.


DebugRuleConfigurations=[
    {
        'RuleConfigurationName': 'VanishingGradient',
        'RuleEvaluatorImage': '895741380848.dkr.ecr.us-west-2.amazonaws.com/sagemaker-debugger-rules:latest',
        'RuleParameters': {
            'rule_to_invoke': 'VanishingGradient',
            'threshold': '20.0'
        }
    }
]

Mit einer Konfiguration wie in diesem Beispiel startet der Debugger einen Regelauswertungsauftrag für Ihren Trainingsauftrag unter Verwendung der VanishingGradient-Regel für die Sammlung des gradients-Tensors. Eine vollständige Liste der verfügbaren Docker-Images für die Verwendung der Debugger-Regeln finden Sie unter Docker-Images für Debugger-Regeln. Die Schlüssel-Wert-Paare für RuleParameters finden Sie unter Liste der in den Debugger integrierten Regeln.

Um eine integrierte Debugger-Regel für das Profiling von System- und Framework-Metriken zu konfigurieren

Der folgende Beispielcode zeigt, wie der API-Betrieb ProfilerConfig spezifiziert wird, um die Sammlung von System- und Framework-Metriken zu aktivieren.

Um Debugger-Profiling zur Sammlung von System- und Framework-Metriken zu aktivieren

Target Step


ProfilerConfig={ 
    'S3OutputPath': 's3://<default-bucket>/<training-job-name>/profiler-output', # Optional. Path to an S3 bucket to save profiling outputs
    # Available values for ProfilingIntervalInMilliseconds: 100, 200, 500, 1000 (1 second), 5000 (5 seconds), and 60000 (1 minute) milliseconds.
    'ProfilingIntervalInMilliseconds': 500, 
    'ProfilingParameters': {
        'DataloaderProfilingConfig': '{
            "StartStep": 5, 
            "NumSteps": 3, 
            "MetricsRegex": ".*"
        }',
        'DetailedProfilingConfig': '{
            "StartStep": 5, 
            "NumSteps": 3 
        }',
        'PythonProfilingConfig': '{
            "StartStep": 5, 
            "NumSteps": 3, 
            "ProfilerName": "cprofile",  # Available options: cprofile, pyinstrument
            "cProfileTimer": "total_time"  # Include only when using cprofile. Available options: cpu, off_cpu, total_time
        }',
        'LocalPath': '/opt/ml/output/profiler/' # Optional. Local path for profiling outputs
    }
}

Target Time Duration


ProfilerConfig={ 
    'S3OutputPath': 's3://<default-bucket>/<training-job-name>/profiler-output', # Optional. Path to an S3 bucket to save profiling outputs
    # Available values for ProfilingIntervalInMilliseconds: 100, 200, 500, 1000 (1 second), 5000 (5 seconds), and 60000 (1 minute) milliseconds.
    'ProfilingIntervalInMilliseconds': 500,
    'ProfilingParameters': {
        'DataloaderProfilingConfig': '{
            "StartTimeInSecSinceEpoch": 12345567789, 
            "DurationInSeconds": 10, 
            "MetricsRegex": ".*"
        }',
        'DetailedProfilingConfig': '{
            "StartTimeInSecSinceEpoch": 12345567789, 
            "DurationInSeconds": 10
        }',
        'PythonProfilingConfig': '{
            "StartTimeInSecSinceEpoch": 12345567789, 
            "DurationInSeconds": 10, 
            "ProfilerName": "cprofile",  # Available options: cprofile, pyinstrument
            "cProfileTimer": "total_time"  # Include only when using cprofile. Available options: cpu, off_cpu, total_time
        }',
        'LocalPath': '/opt/ml/output/profiler/' # Optional. Local path for profiling outputs
    }
}

Um Debugger-Regeln für die das Profiling der Metriken zu aktivieren

Das folgende Codebeispiel zeigt, wie Sie die ProfilerReport-Regel konfigurieren.


ProfilerRuleConfigurations=[ 
    {
        'RuleConfigurationName': 'ProfilerReport',
        'RuleEvaluatorImage': '895741380848.dkr.ecr.us-west-2.amazonaws.com/sagemaker-debugger-rules:latest',
        'RuleParameters': {
            'rule_to_invoke': 'ProfilerReport',
            'CPUBottleneck_cpu_threshold': '90',
            'IOBottleneck_threshold': '90'
        }
    }
]

Eine vollständige Liste der verfügbaren Docker-Images für die Verwendung der Debugger-Regeln finden Sie unter Docker-Images für Debugger-Regeln. Die Schlüssel-Wert-Paare für RuleParameters finden Sie unter Liste der in den Debugger integrierten Regeln.

Die Profiling-Konfiguration des Debuggers mithilfe des `UpdateTrainingJob` API-Betriebs aktualisieren

Die Profiling-Konfiguration des Debuggers kann während der Ausführung Ihres Trainingsjobs mithilfe der update_training_job() Funktion des Clients AWS Boto3 SageMaker AI aktualisiert werden. Konfigurieren Sie neue ProfilerConfig- und ProfilerRuleConfigurations-Objekte und geben Sie den Trainingsauftragsnamen für den Parameter TrainingJobName an.


ProfilerConfig={ 
    'DisableProfiler': boolean,
    'ProfilingIntervalInMilliseconds': number,
    'ProfilingParameters': { 
        'string' : 'string' 
    }
},
ProfilerRuleConfigurations=[ 
    { 
        'RuleConfigurationName': 'string',
        'RuleEvaluatorImage': 'string',
        'RuleParameters': { 
            'string' : 'string' 
        }
    }
],
TrainingJobName='your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS'

Fügen Sie die benutzerdefinierte Debugger-Regelkonfiguration zum CreateTrainingJob-API-Betrieb hinzu

Eine benutzerdefinierte Regel kann für einen Trainingsjob mithilfe der Objekte DebugHookConfig und DebugRuleConfiguration mithilfe der Funktion create_training_job() des Clients AWS Boto3-SageMaker AI konfiguriert werden. Das folgende Codebeispiel zeigt, wie eine mit der smdebug-Bibliothek geschriebene benutzerdefinierte ImproperActivation-Regel mit diesem SageMaker-API-Betrieb konfiguriert wird. In diesem Beispiel wird davon ausgegangen, dass Sie die benutzerdefinierte Regel in der Datei custom_rules.py geschrieben und in einen Amazon-S3-Bucket hochgeladen haben. Das Beispiel stellt vorgefertigte Docker-Images bereit, mit denen Sie Ihre benutzerdefinierten Regeln ausführen können. Diese werden unter Image-URLs des Amazon SageMaker Debugger für benutzerdefinierte Regelauswerter gelistet. Sie geben die URL-Registry-Adresse für das vorgefertigte Docker-Image im RuleEvaluatorImage-Parameter an.


DebugHookConfig={
    'S3OutputPath': 's3://<default-bucket>/<training-job-name>/debug-output',
    'CollectionConfigurations': [
        {
            'CollectionName': 'relu_activations',
            'CollectionParameters': {
                'include_regex': 'relu',
                'save_interval': '500',
                'end_step': '5000'
            }
        }
    ]
},
DebugRulesConfigurations=[
    {
        'RuleConfigurationName': 'improper_activation_job',
        'RuleEvaluatorImage': '552407032007.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rule-evaluator:latest',
        'InstanceType': 'ml.c4.xlarge',
        'VolumeSizeInGB': 400,
        'RuleParameters': {
           'source_s3_uri': 's3://bucket/custom_rules.py',
           'rule_to_invoke': 'ImproperActivation',
           'collection_names': 'relu_activations'
        }
    }
]

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

JSON (AWS CLI)

Weiter