Executar um trabalho de processamento com scikit-learn

Você pode usar o Amazon SageMaker Processing para processar dados e avaliar modelos com scripts scikit-learn em uma imagem do Docker fornecida pela Amazon AI. SageMaker Veja a seguir um exemplo de como executar um trabalho de SageMaker processamento da Amazon usando o scikit-learn.

Para ver um exemplo de caderno que mostra como executar scripts do scikit-learn usando uma imagem do Docker fornecida e mantida pela SageMaker IA para pré-processar dados e avaliar modelos, consulte processamento do scikit-learn. Para usar esse notebook, você precisa instalar o SageMaker AI Python SDK for Processing.

Esse notebook executa um trabalho de processamento usando a SKLearnProcessor classe do SDK do SageMaker Python para executar um script scikit-learn fornecido por você. O script pré-processa dados, treina um modelo usando um trabalho de SageMaker treinamento e, em seguida, executa um trabalho de processamento para avaliar o modelo treinado. O trabalho de processamento estima o desempenho esperado do modelo na produção.

Para saber mais sobre como usar o SDK do SageMaker Python com contêineres de processamento, consulte o SDK do SageMaker Python. Para obter uma lista completa das imagens pré-criadas do Docker disponíveis para tarefas de processamento, consulte Caminhos de registro e código de exemplo do Docker.

O exemplo de código a seguir mostra como o notebook usa SKLearnProcessor para executar seu próprio script scikit-learn usando uma imagem do Docker fornecida e mantida pela SageMaker IA, em vez da sua própria imagem do Docker.


from sagemaker.sklearn.processing import SKLearnProcessor
from sagemaker.processing import ProcessingInput, ProcessingOutput

sklearn_processor = SKLearnProcessor(framework_version='0.20.0',
                                     role=role,
                                     instance_type='ml.m5.xlarge',
                                     instance_count=1)

sklearn_processor.run(code='preprocessing.py',
                      inputs=[ProcessingInput(
                        source='s3://path/to/my/input-data.csv',
                        destination='/opt/ml/processing/input')],
                      outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'),
                               ProcessingOutput(source='/opt/ml/processing/output/validation'),
                               ProcessingOutput(source='/opt/ml/processing/output/test')]
                     )

Para processar dados paralelamente usando Scikit-Learn no Amazon SageMaker Processing, você pode fragmentar objetos de entrada por chave S3 configurando s3_data_distribution_type='ShardedByS3Key' dentro de a ProcessingInput para que cada instância receba aproximadamente o mesmo número de objetos de entrada.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Executar um Trabalho de Processamento com o Apache Spark

Processamento de dados com processadores de framework