As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Executar um trabalho de processamento com scikit-learn
Você pode usar o Amazon SageMaker Processing para processar dados e avaliar modelos com scripts scikit-learn em uma imagem do Docker fornecida pelo Amazon SageMaker AI. Veja a seguir um exemplo de como executar um trabalho no Amazon SageMaker Processing usando o scikit-learn.
Para ver um caderno de exemplo que mostra como executar scripts scikit-learn usando uma imagem do Docker fornecida e mantida pelo SageMaker AI para pré-processar dados e avaliar modelos, consulte Scikit-Learn Data Processing and Model Evaluation
O caderno executa um trabalho de processamento usando a classe SKLearnProcessor do Python SDK do SageMaker para executar um script scikit-learn que você fornece. O script pré-processa dados, treina um modelo usando um trabalho de treinamento do SageMaker e executa um trabalho de processamento para avaliar o modelo treinado. O trabalho de processamento estima o desempenho esperado do modelo na produção.
Para saber mais sobre como usar o Python SDK do SageMaker com contêineres de processamento, consulte SageMaker Python SDK
O exemplo de código a seguir mostra como o caderno usa SKLearnProcessor para executar seu script scikit-learn usando uma imagem do Docker fornecida e mantida pelo SageMaker AI, em vez de sua própria imagem do Docker.
from sagemaker.sklearn.processing import SKLearnProcessor from sagemaker.processing import ProcessingInput, ProcessingOutput sklearn_processor = SKLearnProcessor(framework_version='0.20.0', role=role, instance_type='ml.m5.xlarge', instance_count=1) sklearn_processor.run(code='preprocessing.py', inputs=[ProcessingInput( source='s3://path/to/my/input-data.csv', destination='/opt/ml/processing/input')], outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'), ProcessingOutput(source='/opt/ml/processing/output/validation'), ProcessingOutput(source='/opt/ml/processing/output/test')] )
Para processar dados em paralelo usando Scikit-Learn no Amazon SageMaker Processing, você pode fragmentar objetos de entrada com a chave do S3 definindo s3_data_distribution_type='ShardedByS3Key' dentro de um ProcessingInput para que cada instância receba aproximadamente a mesma quantidade de objetos de entrada.