Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
SDK für Python (Boto3)
Die in Amazon SageMaker Debugger integrierten Regeln können mithilfe der create_training_job()RuleEvaluatorImage Parameter angeben. Die folgenden Beispiele zeigen Ihnen, wie Sie den Anforderungstext für die create_training_job()
Der folgende Code zeigt ein vollständiges Beispiel, wie man den Debugger für den create_training_job()-Anforderungstext konfiguriert und einen Trainingsauftrag in us-west-2 startet, unter der Annahme, dass ein Trainingsskript entry_point/train.py mit TensorFlow vorbereitet wurde. Ein umfassendes Beispiel-Notebook finden Sie unter Profiling TensorFlow Multi-GPU Multi-Knoten Trainingsauftrag mit Amazon SageMaker Debugger (Boto3)
Anmerkung
Stellen Sie sicher, dass Sie die richtigen Docker-Container-Images verwenden. Verfügbare AWS Deep-Learning-Container-Images finden Sie unter Verfügbare Deep Learning Container-Images
import sagemaker, boto3 import datetime, tarfile # Start setting up a SageMaker session and a Boto3 SageMaker client session = sagemaker.Session() region = session.boto_region_name bucket = session.default_bucket() # Upload a training script to a default Amazon S3 bucket of the current SageMaker session source = 'source.tar.gz' project = 'debugger-boto3-test' tar = tarfile.open(source, 'w:gz') tar.add ('entry_point/train.py') # Specify the directory and name of your training script tar.close() s3 = boto3.client('s3') s3.upload_file(source, bucket, project+'/'+source) # Set up a Boto3 session client for SageMaker sm = boto3.Session(region_name=region).client("sagemaker") # Start a training job sm.create_training_job( TrainingJobName='debugger-boto3-'+datetime.datetime.now().strftime('%Y-%m-%d-%H-%M-%S'), HyperParameters={ 'sagemaker_submit_directory': 's3://'+bucket+'/'+project+'/'+source, 'sagemaker_program': '/entry_point/train.py' # training scrip file location and name under the sagemaker_submit_directory }, AlgorithmSpecification={ # Specify a training Docker container image URI (Deep Learning Container or your own training container) to TrainingImage. 'TrainingImage': '763104351884.dkr.ecr.us-west-2.amazonaws.com/tensorflow-training:2.4.1-gpu-py37-cu110-ubuntu18.04', 'TrainingInputMode': 'File', 'EnableSageMakerMetricsTimeSeries':False}, RoleArn='arn:aws:iam::111122223333:role/service-role/AmazonSageMaker-ExecutionRole-20201014T161125', OutputDataConfig={'S3OutputPath': 's3://'+bucket+'/'+project+'/output'}, ResourceConfig={ 'InstanceType': 'ml.p3.8xlarge', 'InstanceCount':1, 'VolumeSizeInGB': 30 }, StoppingCondition={ 'MaxRuntimeInSeconds': 86400 }, DebugHookConfig={ 'S3OutputPath': 's3://'+bucket+'/'+project+'/debug-output', 'CollectionConfigurations': [ { 'CollectionName': 'losses', 'CollectionParameters' : { 'train.save_interval': '500', 'eval.save_interval': '50' } } ] }, DebugRuleConfigurations=[ { 'RuleConfigurationName': 'LossNotDecreasing', 'RuleEvaluatorImage': '895741380848.dkr.ecr.us-west-2.amazonaws.com/sagemaker-debugger-rules:latest', 'RuleParameters': {'rule_to_invoke': 'LossNotDecreasing'} } ], ProfilerConfig={ 'S3OutputPath': 's3://'+bucket+'/'+project+'/profiler-output', 'ProfilingIntervalInMilliseconds': 500, 'ProfilingParameters': { 'DataloaderProfilingConfig': '{"StartStep": 5, "NumSteps": 3, "MetricsRegex": ".*", }', 'DetailedProfilingConfig': '{"StartStep": 5, "NumSteps": 3, }', 'PythonProfilingConfig': '{"StartStep": 5, "NumSteps": 3, "ProfilerName": "cprofile", "cProfileTimer": "total_time"}', 'LocalPath': '/opt/ml/output/profiler/' # Optional. Local path for profiling outputs } }, ProfilerRuleConfigurations=[ { 'RuleConfigurationName': 'ProfilerReport', 'RuleEvaluatorImage': '895741380848.dkr.ecr.us-west-2.amazonaws.com/sagemaker-debugger-rules:latest', 'RuleParameters': {'rule_to_invoke': 'ProfilerReport'} } ] )
So konfigurieren Sie eine Debugger-Regel für das Debuggen von Modellparametern
Die folgenden Codebeispiele zeigen, wie eine integrierte VanishingGradient-Regel mit dieser SageMaker-API konfiguriert werden kann.
Um zu aktivieren, dass der Debugger Ausgabetensoren sammelt
Geben Sie die Debugger-Hook-Konfiguration wie folgt an:
DebugHookConfig={ 'S3OutputPath': 's3://<default-bucket>/<training-job-name>/debug-output', 'CollectionConfigurations': [ { 'CollectionName': 'gradients', 'CollectionParameters' : { 'train.save_interval': '500', 'eval.save_interval': '50' } } ] }
Dies führt dazu, dass der Trainingsauftrag eine Tensorsammlung, gradients, alle save_interval von 500 Schritten speichert. Informationen zu verfügbaren CollectionName Werten finden Sie unter Integrierte Debugger-SammlungenCollectionParameters Parameterschlüssel und -werte finden Sie in der sagemaker.debugger.CollectionConfig
Um Debugger-Regeln für das Debuggen der Ausgabetensoren zu aktivieren
Das folgende DebugRuleConfigurations API-Beispiel zeigt, wie die integrierte VanishingGradient Regel für die gespeicherte gradients Sammlung ausgeführt wird.
DebugRuleConfigurations=[ { 'RuleConfigurationName': 'VanishingGradient', 'RuleEvaluatorImage': '895741380848.dkr.ecr.us-west-2.amazonaws.com/sagemaker-debugger-rules:latest', 'RuleParameters': { 'rule_to_invoke': 'VanishingGradient', 'threshold': '20.0' } } ]
Mit einer Konfiguration wie in diesem Beispiel startet der Debugger einen Regelauswertungsauftrag für Ihren Trainingsauftrag unter Verwendung der VanishingGradient-Regel für die Sammlung des gradients-Tensors. Eine vollständige Liste der verfügbaren Docker-Images für die Verwendung der Debugger-Regeln finden Sie unter Docker-Images für Debugger-Regeln. Die Schlüssel-Wert-Paare für RuleParameters finden Sie unter Liste der in den Debugger integrierten Regeln.
Um eine integrierte Debugger-Regel für das Profiling von System- und Framework-Metriken zu konfigurieren
Der folgende Beispielcode zeigt, wie der API-Betrieb ProfilerConfig spezifiziert wird, um die Sammlung von System- und Framework-Metriken zu aktivieren.
Um Debugger-Profiling zur Sammlung von System- und Framework-Metriken zu aktivieren
Um Debugger-Regeln für die das Profiling der Metriken zu aktivieren
Das folgende Codebeispiel zeigt, wie Sie die ProfilerReport-Regel konfigurieren.
ProfilerRuleConfigurations=[ { 'RuleConfigurationName': 'ProfilerReport', 'RuleEvaluatorImage': '895741380848.dkr.ecr.us-west-2.amazonaws.com/sagemaker-debugger-rules:latest', 'RuleParameters': { 'rule_to_invoke': 'ProfilerReport', 'CPUBottleneck_cpu_threshold': '90', 'IOBottleneck_threshold': '90' } } ]
Eine vollständige Liste der verfügbaren Docker-Images für die Verwendung der Debugger-Regeln finden Sie unter Docker-Images für Debugger-Regeln. Die Schlüssel-Wert-Paare für RuleParameters finden Sie unter Liste der in den Debugger integrierten Regeln.
Die Profiling-Konfiguration des Debuggers mithilfe des UpdateTrainingJob API-Betriebs aktualisieren
Die Profiling-Konfiguration des Debuggers kann während der Ausführung Ihres Trainingsjobs mithilfe der update_training_job()TrainingJobName an.
ProfilerConfig={ 'DisableProfiler':boolean, 'ProfilingIntervalInMilliseconds':number, 'ProfilingParameters': { 'string' : 'string' } }, ProfilerRuleConfigurations=[ { 'RuleConfigurationName': 'string', 'RuleEvaluatorImage': 'string', 'RuleParameters': { 'string' : 'string' } } ], TrainingJobName='your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS'
Fügen Sie die benutzerdefinierte Debugger-Regelkonfiguration zum CreateTrainingJob-API-Betrieb hinzu
Eine benutzerdefinierte Regel kann für einen Trainingsjob mithilfe der Objekte DebugHookConfig und DebugRuleConfiguration mithilfe der Funktion create_training_job()ImproperActivation-Regel mit diesem SageMaker-API-Betrieb konfiguriert wird. In diesem Beispiel wird davon ausgegangen, dass Sie die benutzerdefinierte Regel in der Datei custom_rules.py geschrieben und in einen Amazon-S3-Bucket hochgeladen haben. Das Beispiel stellt vorgefertigte Docker-Images bereit, mit denen Sie Ihre benutzerdefinierten Regeln ausführen können. Diese werden unter Image-URLs des Amazon SageMaker Debugger für benutzerdefinierte Regelauswerter gelistet. Sie geben die URL-Registry-Adresse für das vorgefertigte Docker-Image im RuleEvaluatorImage-Parameter an.
DebugHookConfig={ 'S3OutputPath': 's3://<default-bucket>/<training-job-name>/debug-output', 'CollectionConfigurations': [ { 'CollectionName': 'relu_activations', 'CollectionParameters': { 'include_regex': 'relu', 'save_interval': '500', 'end_step': '5000' } } ] }, DebugRulesConfigurations=[ { 'RuleConfigurationName': 'improper_activation_job', 'RuleEvaluatorImage': '552407032007.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rule-evaluator:latest', 'InstanceType': 'ml.c4.xlarge', 'VolumeSizeInGB':400, 'RuleParameters': { 'source_s3_uri': 's3://bucket/custom_rules.py', 'rule_to_invoke': 'ImproperActivation', 'collection_names': 'relu_activations' } } ]
Eine vollständige Liste der verfügbaren Docker-Images für die Verwendung der Debugger-Regeln finden Sie unter Docker-Images für Debugger-Regeln. Die Schlüssel-Wert-Paare für RuleParameters finden Sie unter Liste der in den Debugger integrierten Regeln.