Ausführen eines Verarbeitungsjobs mit scikit-learn

Sie können Amazon SageMaker Processing verwenden, um Daten zu verarbeiten und Modelle mit Scikit-Learn-Skripts in einem von Amazon AI bereitgestellten Docker-Image auszuwerten. SageMaker Im Folgenden finden Sie ein Beispiel für die Ausführung eines Amazon SageMaker Processing-Jobs mit scikit-learn.

Ein Beispiel-Notizbuch, das zeigt, wie Scikit-Learn-Skripte mit einem von SageMaker KI bereitgestellten und verwalteten Docker-Image ausgeführt werden, um Daten vorzuverarbeiten und Modelle auszuwerten, finden Sie unter scikit-learn Processing. Um dieses Notizbuch verwenden zu können, müssen Sie das SageMaker AI Python SDK for Processing installieren.

Dieses Notizbuch führt einen Verarbeitungsjob mit einer SKLearnProcessor Klasse aus dem SageMaker Python-SDK aus, um ein von Ihnen bereitgestelltes Scikit-Learn-Skript auszuführen. Das Skript verarbeitet Daten vor, trainiert ein Modell mithilfe eines SageMaker Trainingsjobs und führt dann einen Verarbeitungsjob aus, um das trainierte Modell auszuwerten. Mit dem Verarbeitungsauftrag wird die Leistung des Modells in der Produktion geschätzt.

Weitere Informationen zur Verwendung des SageMaker Python-SDK mit Verarbeitungscontainern finden Sie im SageMaker Python-SDK. Eine vollständige Liste der vorgefertigten Docker-Images, die für die Verarbeitung von Aufträgen verfügbar sind, finden Sie unter Docker-Registry-Pfade und Beispielcode.

Das folgende Codebeispiel zeigt, wie das Notebook Ihr eigenes Scikit-Learn-Skript unter Verwendung eines von SageMaker KI bereitgestellten und verwalteten Docker-Images anstelle Ihres eigenen Docker-Images ausführt. SKLearnProcessor


from sagemaker.sklearn.processing import SKLearnProcessor
from sagemaker.processing import ProcessingInput, ProcessingOutput

sklearn_processor = SKLearnProcessor(framework_version='0.20.0',
                                     role=role,
                                     instance_type='ml.m5.xlarge',
                                     instance_count=1)

sklearn_processor.run(code='preprocessing.py',
                      inputs=[ProcessingInput(
                        source='s3://path/to/my/input-data.csv',
                        destination='/opt/ml/processing/input')],
                      outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'),
                               ProcessingOutput(source='/opt/ml/processing/output/validation'),
                               ProcessingOutput(source='/opt/ml/processing/output/test')]
                     )

Um Daten mithilfe von Scikit-Learn Amazon SageMaker Processing parallel zu verarbeiten, können Sie Eingabeobjekte per S3-Schlüssel teilen, indem Sie s3_data_distribution_type='ShardedByS3Key' innerhalb von a festlegen, ProcessingInput dass jede Instanz ungefähr die gleiche Anzahl von Eingabeobjekten empfängt.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Ausführen eines Verarbeitungsjobs mit Apache Spark

Datenverarbeitung mit Framework-Prozessoren