Exécution d’une tâche de traitement avec scikit-learn

Vous pouvez utiliser Amazon SageMaker Processing pour traiter des données et évaluer des modèles à l'aide de scripts scikit-learn dans une image Docker fournie par Amazon AI. SageMaker Vous trouverez ci-dessous un exemple d'exécution d'une tâche Amazon SageMaker Processing à l'aide de scikit-learn.

Pour un exemple de bloc-notes expliquant comment exécuter des scripts scikit-learn à l'aide d'une image Docker fournie et gérée par l' SageMaker IA pour prétraiter les données et évaluer les modèles, consultez scikit-learn Processing. Pour utiliser ce bloc-notes, vous devez installer le SDK SageMaker AI Python pour le traitement.

Ce bloc-notes exécute une tâche de traitement en utilisant une SKLearnProcessor classe du SDK SageMaker Python pour exécuter un script scikit-learn que vous fournissez. Le script prétraite les données, entraîne un modèle à l'aide d'une tâche d' SageMaker entraînement, puis exécute une tâche de traitement pour évaluer le modèle entraîné. La tâche de traitement évalue la performance attendue du modèle en production.

Pour en savoir plus sur l'utilisation du SDK SageMaker Python avec des conteneurs de traitement, consultez le SDK SageMaker Python. Pour obtenir la liste complète des images Docker prédéfinies disponibles pour les tâches de traitement, consultez Chemins de registre Docker et exemple de code.

L'exemple de code suivant montre comment le bloc-notes exécute votre propre script scikit-learn SKLearnProcessor à l'aide d'une image Docker fournie et gérée par SageMaker AI, au lieu de votre propre image Docker.


from sagemaker.sklearn.processing import SKLearnProcessor
from sagemaker.processing import ProcessingInput, ProcessingOutput

sklearn_processor = SKLearnProcessor(framework_version='0.20.0',
                                     role=role,
                                     instance_type='ml.m5.xlarge',
                                     instance_count=1)

sklearn_processor.run(code='preprocessing.py',
                      inputs=[ProcessingInput(
                        source='s3://path/to/my/input-data.csv',
                        destination='/opt/ml/processing/input')],
                      outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'),
                               ProcessingOutput(source='/opt/ml/processing/output/validation'),
                               ProcessingOutput(source='/opt/ml/processing/output/test')]
                     )

Pour traiter les données en parallèle à l'aide Scikit-Learn d'Amazon SageMaker Processing, vous pouvez partager des objets d'entrée à l'aide de la touche S3 en s3_data_distribution_type='ShardedByS3Key' définissant un ProcessingInput afin que chaque instance reçoive à peu près le même nombre d'objets d'entrée.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Exécution d’une tâche de traitement avec Apache Spark

Traitement des données avec les processeurs d’infrastructure