Ausführen eines Verarbeitungsjobs mit scikit-learn - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Ausführen eines Verarbeitungsjobs mit scikit-learn

Sie können Amazon SageMaker Processing verwenden, um Daten zu verarbeiten und Modelle mit scikit-learn-Skripten in einem von Amazon SageMaker AI bereitgestellten Docker-Image auszuwerten. Im Folgenden finden Sie ein Beispiel für die Ausführung eines Jobs von Amazon SageMaker Processing mit Scikit-Learn.

Ein Beispiel-Notebook, das zeigt, wie scikit-learn-Skripte mit einem Docker-Image ausgeführt werden, das von SageMaker AI zur Vorverarbeitung von Daten und Auswertung von Modellen bereitgestellt und verwaltet wird, finden Sie unter scikit-learn-Verarbeitung. Um dieses Notebook zu verwenden, müssen Sie das SageMaker AI Python SDK für die Verarbeitung installieren.

Dieses Notebook führt einen Verarbeitungsauftrag aus, der die SKLearnProcessor Klasse aus dem SageMaker Python-SDK für Python verwendet, um ein von Ihnen bereitgestelltes scikit-learn-Skript auszuführen. Das Skript verarbeitet Daten vorab, schult ein Modell mithilfe eines SageMaker-Trainingsauftrags und führt dann einen Verarbeitungsauftrag aus, um das trainierte Modell auszuwerten. Mit dem Verarbeitungsauftrag wird die Leistung des Modells in der Produktion geschätzt.

Weitere Informationen zur Verwendung des SageMaker Python SDK mit Verarbeitungscontainern finden Sie unter SageMaker Python SDK. Eine vollständige Liste der vorgefertigten Docker-Images, die für die Verarbeitung von Aufträgen verfügbar sind, finden Sie unter Docker-Registry-Pfade und Beispielcode.

Das folgende Beispiel zeigt, wie Notebook SKLearnProcessor verwendet, um Ihr eigenes scikit-learn-Skript mit einem von SageMaker AI bereitgestellten und verwalteten Docker-Image, anstatt Ihrem eigenen Docker-Image, auszuführen.

from sagemaker.sklearn.processing import SKLearnProcessor from sagemaker.processing import ProcessingInput, ProcessingOutput sklearn_processor = SKLearnProcessor(framework_version='0.20.0', role=role, instance_type='ml.m5.xlarge', instance_count=1) sklearn_processor.run(code='preprocessing.py', inputs=[ProcessingInput( source='s3://path/to/my/input-data.csv', destination='/opt/ml/processing/input')], outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'), ProcessingOutput(source='/opt/ml/processing/output/validation'), ProcessingOutput(source='/opt/ml/processing/output/test')] )

Um Daten parallel mit Scikit-Learn on Amazon SageMaker Processing zu verarbeiten, können Sie Eingabeobjekte nach S3-Schlüssel freigeben, indem Sie s3_data_distribution_type='ShardedByS3Key' innerhalb eines ProcessingInput so festlegen, dass jede Instance ungefähr die gleiche Anzahl von Eingabeobjekten empfängt.