As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Workloads de transformação de dados com o SageMaker Processing
O SageMaker Processing recorre aos recursos do SageMaker AI para executar tarefas de pré e pós-processamento de dados, engenharia de atributos e avaliação de modelo na infraestrutura totalmente gerenciada do SageMaker AI. Essas tarefas são executadas como trabalhos de processamento. Veja a seguir informações e recursos para aprender sobre o SageMaker Processing.
Usando a API SageMaker Processing, cientistas de dados podem executar scripts e cadernos para processar, transformar e analisar conjuntos de dados a fim de prepará-los para o machine learning. Quando combinado com outras tarefas essenciais de machine learning fornecidas pelo SageMaker AI, como treinamento e hospedagem, o Processing oferece os benefícios de um ambiente de machine learning totalmente gerenciado, bem como todo o suporte de segurança e conformidade integrado no SageMaker AI. Você tem flexibilidade para usar os contêineres integrados de processamento de dados ou trazer contêineres próprios e enviar trabalhos personalizados para serem executados na infraestrutura gerenciada do SageMaker AI.
nota
É possível criar um trabalho de processamento de forma programática ao chamar a ação de API CreateProcessingJob em qualquer linguagem compatível com o SageMaker AI ou usando a AWS CLI. Para obter informações sobre como essa ação da API se traduz em uma função na linguagem da sua escolha, consulte a seção Consulte também de CreateProcessingJob e escolha um SDK. Como exemplo, para usuários do Python, consulte a seção Amazon SageMaker Processing
O diagrama a seguir mostra como o Amazon SageMaker AI executa uma tarefa de processamento. O Amazon SageMaker AI utiliza seu script para copiar seus dados do Amazon Simple Storage Service (Amazon S3) e, em seguida, extrai um contêiner de processamento. A infraestrutura subjacente para um trabalho de processamento é totalmente gerenciada pelo Amazon SageMaker AI. Depois que você envia um trabalho, o SageMaker AI executa as instâncias de computação, processa e analisa os dados de entrada e libera os recursos ao concluir. A saída do trabalho de processamento é armazenada no bucket do Amazon S3 que você especificar.
nota
Seus dados de entrada devem ser armazenados em um bucket do Amazon S3. Se preferir, você também pode usar Amazon Athena ou Amazon Redshift.
dica
Para conhecer as melhores práticas para computação distribuída de trabalhos de treinamento e processamento de machine learning (ML) em geral, consulte Computação distribuída com as práticas recomendadas do SageMaker AI.
Use Caderno de exemplo do Amazon SageMaker Processing
Fornecemos dois exemplos de cadernos Jupyter que mostram como realizar o pré-processamento de dados, a avaliação de modelos ou ambos.
Para obter um caderno de exemplo que mostra como executar scripts scikit-learn para fazer o pré-processamento de dados e o treinamento do modelo com o SageMaker Python SDK para o processamento, consulte Processar scikit-learn
Para obter um exemplo de caderno que mostra como usar o Amazon SageMaker Processing para fazer o pré-processamento de dados distribuídos com o Spark, consulte Processamento distribuído (Spark)
Para obter instruções sobre como criar e acessar instâncias de caderno Jupyter que podem ser utilizadas para executar os exemplos no SageMaker AI, consulte Instâncias de SageMaker notebook da Amazon. Depois de criar uma instância de caderno e abri-la, selecione a guia Exemplos do SageMaker AI para ver uma lista de todos os exemplos do SageMaker AI. Para abrir um caderno, escolha a guia Uso e depois escolha Criar cópia.
Monitoramento trabalhos do Amazon SageMaker Processing com logs e métricas do CloudWatch
O Amazon SageMaker Processing fornece logs e métricas do Amazon CloudWatch para monitorar trabalhos de processamento. O CloudWatch fornece métricas de CPU, GPU, memória, memória de GPU e disco, além de registro de eventos. Para obter mais informações, consulte Métricas de SageMaker IA da Amazon na Amazon CloudWatch e CloudWatch Registros para Amazon SageMaker AI.