

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Como o processamento de dados funciona no Data Wrangler
<a name="canvas-data-processing"></a>

Ao trabalhar com dados de forma interativa em um fluxo de SageMaker dados do Amazon Data Wrangler, o Amazon SageMaker Canvas só aplica as transformações a um conjunto de dados de amostra para você visualizar. Depois de terminar seu fluxo de dados no SageMaker Canvas, você pode processar todos os seus dados e salvá-los em um local adequado para seus fluxos de trabalho de aprendizado de máquina.

Há várias opções de como proceder depois de terminar de transformar seus dados no Data Wrangler:
+ [Criar um modelo](canvas-processing-export-model.md). Você pode criar um modelo Canvas, onde você começa diretamente a criar um modelo com seus dados preparados. Você pode criar um modelo depois de processar todo o conjunto de dados ou exportando apenas os dados de amostra com os quais você trabalhou no Data Wrangler. O Canvas salva seus dados processados (o conjunto de dados inteiro ou os dados de amostra) como um conjunto de dados do Canvas.

  Recomendamos que você use seus dados de amostra para iterações rápidas, mas use todos os dados quando quiser treinar seu modelo final. Ao criar modelos tabulares, conjuntos de dados maiores que 5 GB são automaticamente reduzidos para 5 GB e, para modelos de previsão de séries temporais, conjuntos de dados maiores que 30 GB são reduzidos para 30 GB.

  Para saber mais sobre como criar um modelo, consulte [Como os modelos personalizados funcionam](canvas-build-model.md).
+ [Exportar os dados](canvas-export-data.md). Você pode exportar seus dados para uso em fluxos de trabalho de machine learning. Ao escolher exportar seus dados, você tem várias opções:
  + Você pode salvar seus dados na aplicação Canvas como um conjunto de dados. Para obter mais informações sobre os tipos de arquivo compatíveis com conjuntos de dados do Canvas e requisitos adicionais ao importar dados para o Canvas, consulte. [Criar um conjunto de dados](canvas-import-dataset.md)
  + Você pode salvar seus dados no Amazon S3. Dependendo da disponibilidade de memória do Canvas, seus dados são processados na aplicação e depois exportados para o Amazon S3. Se o tamanho do seu conjunto de dados exceder o que o Canvas pode processar, então, por padrão, o Canvas usa um trabalho do EMR com tecnologia sem servidor para escalar para várias instâncias de computação, processar seu conjunto de dados completo e exportá-lo para o Amazon S3. Você também pode configurar manualmente um trabalho SageMaker de processamento para ter um controle mais granular sobre os recursos computacionais usados para processar seus dados.
+ [Exportar um fluxo de dados](canvas-export-data-flow.md). Talvez você queira salvar o código do seu fluxo de dados para poder modificar ou executar suas transformações fora do Canvas. O Canvas oferece a opção de salvar suas transformações de fluxo de dados como código Python em um caderno Jupyter, que você pode então exportar para o Amazon S3 para uso em qualquer lugar em seus fluxos de trabalho de machine learning.

Quando você exporta seus dados de um fluxo de dados e os salva como um conjunto de dados do Canvas ou para o Amazon S3, o Canvas cria um novo nó de destino em seu fluxo de dados, que é um nó final que mostra onde seus dados processados estão armazenados. Você pode adicionar outros nós de destino ao seu fluxo se quiser realizar várias operações de exportação. Por exemplo, você pode exportar os dados de diferentes pontos em seu fluxo de dados para aplicar apenas algumas das transformações, ou você pode exportar dados transformados para diferentes locais do Amazon S3. Para obter mais informações sobre como adicionar ou editar um nó de destino, consulte [Adicionar nós de destino](canvas-destination-nodes-add.md) e [Editar um nó de destino](canvas-destination-nodes-edit.md) .

Para obter mais informações sobre como configurar um cronograma com EventBridge a Amazon para processar e exportar automaticamente seus dados de acordo com um cronograma, consulte[Crie um cronograma para processar automaticamente novos dados](canvas-data-export-schedule-job.md).

# Exportar para criar um modelo
<a name="canvas-processing-export-model"></a>

Com apenas alguns cliques do seu fluxo de dados, você pode exportar seus dados transformados e começar a criar um modelo de ML no Canvas. O Canvas salva seus dados como um conjunto de dados do Canvas e você é direcionado para a página de configuração de construção do modelo para um novo modelo.

Para criar um modelo Canvas com seus dados transformados:

1. Navegue até o fluxo de dados.

1. Escolha o ícone de reticências ao lado do nó que você está exportando.

1. No menu de contexto, escolha **Criar modelo**.

1. No painel lateral **Exportar para criar um modelo**, insira o **nome do conjunto de dados** para o novo conjunto de dados.

1. Deixe a opção **Processar todo o conjunto** de dados selecionada para processar e exportar todo o conjunto de dados antes de continuar com a criação de um modelo. Desative essa opção para treinar seu modelo usando os dados de amostra interativos com os quais você está trabalhando em seu fluxo de dados.

1. Insira o **nome do modelo** para nomear o novo modelo.

1. Selecione um **tipo de problema** ou o tipo de modelo que você deseja criar. Para obter mais informações sobre os tipos de modelos suportados no SageMaker Canvas, consulte[Como os modelos personalizados funcionam](canvas-build-model.md).

1. Selecione a **coluna Alvo** ou o valor que você deseja que o modelo preveja.

1. Escolha **Exportar e criar modelo**.

A guia **Construir** para um novo modelo do Canvas deve ser aberta e você pode concluir a configuração e o treinamento do seu modelo. Para obter mais informações sobre a criação de um modelo, consulte [Criar um modelo](canvas-build-model-how-to.md).

# Exportar dados
<a name="canvas-export-data"></a>

Exporte dados para aplicar as transformações do seu fluxo de dados ao conjunto de dados importado completo. Você pode exportar qualquer nó em seu fluxo de dados para os seguintes locais:
+ SageMaker Conjunto de dados Canvas
+ Amazon S3

Se você quiser treinar modelos no Canvas, você pode exportar seu conjunto de dados completo e transformado como um conjunto de dados do Canvas. Se você quiser usar seus dados transformados em fluxos de trabalho de aprendizado de máquina externos ao SageMaker Canvas, você pode exportar seu conjunto de dados para o Amazon S3.

## Exportar para um conjunto de dados do Canvas
<a name="canvas-export-data-canvas"></a>

Use o procedimento a seguir para exportar um conjunto de dados do SageMaker Canvas de um nó em seu fluxo de dados.

**Para exportar um nó em seu fluxo como um conjunto de dados do SageMaker Canvas**

1. Navegue até o fluxo de dados.

1. Escolha o ícone de reticências ao lado do nó que você está exportando.

1. No menu de contexto, passe o mouse sobre **Exportar** e selecione **Exportar dados para o conjunto de dados do Canvas**.

1. No painel lateral **Exportar para o conjunto de dados do Canvas**, insira um **nome de conjunto de dados** para o novo conjunto de dados.

1. Deixe a opção **Processar todo o conjunto** de dados selecionada se quiser que o SageMaker Canvas processe e salve seu conjunto de dados completo. Desative essa opção para aplicar somente as transformações aos dados de amostra com os quais você está trabalhando no seu fluxo de dados.

1. Escolha **Exportar**.

Agora você deve poder acessar a página de **conjuntos de dados** da aplicação Canvas e ver seu novo conjunto de dados.

## Exportar para o Amazon S3.
<a name="canvas-export-data-s3"></a>

Ao exportar dados para o Amazon S3, você pode escalar para transformar e processar dados de qualquer tamanho. O Canvas processa automaticamente seus dados localmente se a memória da aplicação puder lidar com o tamanho do seu conjunto de dados. Se o tamanho do seu conjunto de dados exceder a capacidade de memória local de 5 GB, o Canvas iniciará um trabalho remoto em seu nome para provisionar recursos computacionais adicionais e processar os dados mais rapidamente. Por padrão, o Canvas usa o Amazon EMR Sem Servidor para executar esses trabalhos remotos. No entanto, você pode configurar manualmente o Canvas para usar o EMR Serverless ou um trabalho de SageMaker processamento com suas próprias configurações.

**nota**  
Ao executar um trabalho do EMR com tecnologia sem servidor, por padrão, o trabalho herda o perfil do IAM, as configurações da chave do KMS e as tags da sua aplicação Canvas.

Segue um resumo das opções de trabalho remoto no Canvas:
+ **EMR com tecnologia sem servidor**: Essa é a opção padrão que o Canvas usa para trabalhos remotos. O EMR com tecnologia sem servidor provisiona e escala automaticamente os recursos de computação para processar seus dados, de forma que você não precise se preocupar em escolher os recursos computacionais certos para seu workload. Para obter mais informações sobre o EMR com tecnologia sem servidor, consulte o [Guia do usuário do EMR com tecnologia sem servidor.](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/emr-serverless.html)
+ **SageMaker Processamento**: os trabalhos de SageMaker processamento oferecem opções mais avançadas e controle granular sobre os recursos computacionais usados para processar seus dados. Por exemplo, você pode especificar o tipo e a contagem das instâncias de computação, configurar o trabalho em sua própria VPC e controlar o acesso à rede, automatizar trabalhos de processamento e muito mais. Para obter mais informações sobre esses processos, consulte [Crie um cronograma para processar automaticamente novos dados](canvas-data-export-schedule-job.md). Para obter mais informações gerais sobre trabalhos SageMaker de processamento, consulte[Cargas de trabalho de transformação de dados com processamento SageMaker](processing-job.md).

Os seguintes tipos de arquivo são compatíveis ao exportar para o Amazon S3:
+ CSV
+ Parquet

Para começar, revise os pré-requisitos a seguir.

### Pré-requisitos para tarefas do EMR com tecnologia sem servidor
<a name="canvas-export-data-emr-prereqs"></a>

Para criar um trabalho remoto que usa recursos do EMR com tecnologia sem servidor, você deve ter as permissões necessárias. Você pode conceder permissões por meio das configurações de domínio ou perfil de usuário do Amazon SageMaker AI, ou pode configurar manualmente a função do AWS IAM do usuário. Para obter instruções sobre como conceder aos usuários permissões para realizar grandes processamentos de dados, consulte[Conceda aos usuários permissões para usar grandes volumes de dados em todo o ciclo de vida do ML](canvas-large-data-permissions.md).

Se você não quiser configurar essas políticas, mas ainda precisar processar grandes conjuntos de dados por meio do Data Wrangler, você pode usar uma SageMaker tarefa de processamento como alternativa.

Se quiser armazenar seus dados exportados no Amazon S3, use o procedimento a seguir. Para configurar um trabalho remoto, siga as etapas avançadas opcionais.

**Para exportar um nó em seu fluxo para o Amazon S3**

1. Navegue até o fluxo de dados.

1. Escolha o ícone de reticências ao lado do nó que você está exportando.

1. No menu de contexto, passe o mouse sobre **Exportar** e selecione **Exportar dados para o Amazon S3**.

1. No painel lateral **Exportar para o Amazon S3**, você pode alterar o **nome do conjunto de dados** para o novo conjunto de dados.

1. Para a **localização do S3**, insira a localização do Amazon S3 para a qual você deseja exportar o conjunto de dados. Você pode inserir o URI, o alias ou o ARN do S3 da localização do S3 ou do ponto de acesso do S3. Para obter mais informações, consulte [Gerenciando o acesso a dados com o recurso Pontos de Acesso Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-points.html) no *Guia do usuário do Amazon S3*.

1. (Opcional) Para as **configurações avançadas**, especifique valores para os seguintes campos:

   1. **Tipo de arquivo**: o formato de arquivo dos dados exportados.

   1. **Delimitador**: o delimitador utilizado para separar valores no arquivo.

   1. **Compressão**: o método de compactação usado para reduzir o tamanho do arquivo.

   1. **Número de partições**: o número de arquivos de conjunto de dados que o Canvas grava como saída do trabalho.

   1. **Escolher colunas**: você pode escolher um subconjunto de colunas dos dados para incluir nas partições.

1. Deixe a opção **Processar todo o conjunto** de dados selecionada se quiser que o Canvas aplique suas transformações de fluxo de dados em todo o conjunto de dados e exporte o resultado. Se você desmarcar essa opção, o Canvas aplicará somente as transformações à amostra do seu conjunto de dados usado no fluxo de dados interativo do Data Wrangler.
**nota**  
Se você exportar apenas uma amostra dos seus dados, o Canvas processa seus dados na aplicação e não cria um trabalho remoto para você.

1. Deixe a opção **Configuração automática da tarefa** selecionada se quiser que o Canvas determine automaticamente se a tarefa deve ser executada usando a memória da aplicação Canvas ou uma tarefa do EMR Sem Servidor. Se você desmarcar essa opção e configurar manualmente sua tarefa, poderá optar por usar uma tarefa EMR Serverless ou Processing. SageMaker Para obter instruções sobre como configurar um EMR Serverless ou um trabalho de SageMaker processamento, consulte a seção após esse procedimento antes de exportar seus dados.

1. Escolha **Exportar**.

Os procedimentos a seguir mostram como definir manualmente as configurações de trabalho remoto para o EMR Serverless ou SageMaker Processing ao exportar seu conjunto de dados completo para o Amazon S3.

------
#### [ EMR Serverless ]

Para configurar um trabalho do EMR com tecnologia sem servidor durante a exportação para o Amazon S3, faça o seguinte:

1. No painel lateral Exportar para o Amazon S3, desative a opção **Configuração automática de tarefas**.

1. Selecione **EMR com tecnologia sem servidor**.

1. Em **Nome do trabalho**, insira um nome para o seu trabalho EMR com tecnologia sem servidor. O nome só pode conter letras, números, hifens e sublinhado.

1. Para a **função IAM**, insira a função de execução do IAM do usuário. Essa função deve ter as permissões necessárias para executar aplicações EMR com tecnologia sem servidor. Para obter mais informações, consulte [Conceda aos usuários permissões para usar grandes volumes de dados em todo o ciclo de vida do ML](canvas-large-data-permissions.md).

1. (Opcional) Para a **chave KMS**, especifique o ID da chave ou o ARN de AWS KMS key um para criptografar os registros do trabalho. Se você não inserir uma chave, o Canvas utilizará uma chave padrão para o EMR com tecnologia sem servidor.

1. (Opcional) Para **configuração de monitoramento**, insira o nome de um grupo de CloudWatch logs do Amazon Logs no qual você deseja publicar seus registros.

1. (Opcional) Para **tags, adicione tags** de metadados à tarefa do EMR com tecnologia sem servidor que consiste em pares de valores-chave. Essas tags podem ser usadas para categorizar e pesquisar empregos.

1. Selecione **Export** para iniciar o trabalho.

------
#### [ SageMaker Processing ]

Para configurar um trabalho SageMaker de processamento durante a exportação para o Amazon S3, faça o seguinte:

1. No painel lateral **Exportar para o Amazon S3**, desative a opção **Configuração automática de tarefas**.

1. Selecione **SageMaker Processamento**.

1. Em **Nome do trabalho**, insira um nome para seu trabalho de processamento de SageMaker IA.

1. Em **Tipo de instância**, selecione o tipo de instância de computação para executar o trabalho de processamento.

1. Para **Contagem de instâncias**, especifique o número de instâncias de computação a serem iniciadas.

1. Para a **função IAM**, insira a função de execução do IAM do usuário. Essa função deve ter as permissões necessárias para que a SageMaker IA crie e execute trabalhos de processamento em seu nome. Essas permissões são concedidas se você tiver a [AmazonSageMakerFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerFullAccess.html)política anexada à sua função do IAM.

1. Em **Tamanho do volume**, insira o tamanho do armazenamento em GB para o volume de armazenamento de ML que está anexado a cada instância de processamento. Escolha o tamanho com base no tamanho esperado dos dados de entrada e saída.

1. (Opcional) Para a **chave KMS de volume**, especifique uma chave do KMS para criptografar o volume de armazenamento. Se você não especificar uma chave, a chave de criptografia Amazon EBS padrão será usada.

1. (Opcional) Para a **chave do KMS**, especifique uma chave do KMS para criptografar as fontes de dados de entrada e saída do Amazon S3 usadas pelo trabalho de processamento.

1. (Opcional) Em **Configuração de memória Spark**, faça o seguinte:

   1. Insira a **memória do driver em MB** para o nó do driver do Spark que gerencia a coordenação e o agendamento do trabalho.

   1. Insira a **memória do executor em MB** para os nós executores do Spark que executam tarefas individuais na tarefa.

1. (Opcional) Para **configuração de rede**, faça o seguinte:

   1. Em **Configuração de sub-rede**, insira as IDs sub-redes VPC nas quais as instâncias de processamento serão iniciadas. Por padrão, o trabalho usa as configurações da sua VPC padrão.

   1. Em **Configuração do grupo de segurança**, insira os grupos IDs de segurança para controlar as regras de conectividade de entrada e saída.

   1. Ative a opção **Habilitar criptografia de tráfego entre contêineres** para criptografar a comunicação de rede entre contêineres de processamento durante o trabalho.

1. (Opcional) Para **agendas de associados**, você pode escolher criar uma EventBridge programação da Amazon para que o trabalho de processamento seja executado em intervalos recorrentes. Escolha **Criar nova programação** e preencha a caixa de diálogo. [Crie um cronograma para processar automaticamente novos dados](canvas-data-export-schedule-job.md): tenha uma visão geral do ciclo de vida de ML e conheça as soluções oferecidas.

1. (Opcional) Adicione **tags** como pares de valores-chave para que você possa categorizar e pesquisar trabalhos de processamento.

1. Selecione **Export** para iniciar o trabalho.

------

Depois de exportar os dados, você deve encontrar o conjunto de dados totalmente processado na localização especificada do Amazon S3.

# Exportar um fluxo de dados
<a name="canvas-export-data-flow"></a>

Exportar seu fluxo de dados traduz as operações que você fez no Data Wrangler e as exporta para um caderno Jupyter com código Python que você pode modificar e executar. Isso pode ser útil para integrar o código para suas transformações de dados em seus pipelines de machine learning.

Você pode escolher qualquer nó de dados em seu fluxo de dados e exportá-lo. A exportação do nó de dados exporta a transformação que o nó representa e as transformações que a precedem.

**Para exportar um fluxo de dados como um caderno Jupyter**

1. Navegue até o fluxo de dados.

1. Selecione o ícone de reticências ao lado do nó que você deseja exportar.

1. No menu de contexto, passe o mouse sobre **Exportar** e, em seguida, passe o mouse sobre **Exportar via caderno Jupyter**.

1. Escolha uma das seguintes opções:
   + **SageMaker Pipelines**
   + **Amazon S3**
   + **SageMaker Pipeline de inferência de IA**
   + **SageMaker Loja de recursos de IA**
   + **Código Python**

1. A caixa de diálogo **Exportar fluxo de dados como caderno** é aberta. Selecione um dos seguintes:
   + **Baixar uma cópia local**
   + **Exportar para o local do S3**

1. Se você selecionou **Exportar para o local do S3**, insira o local do Amazon S3 para o qual deseja exportar o caderno.

1. Escolha **Exportar**.

Seu caderno Jupyter deve ser baixado para sua máquina local ou você pode encontrá-lo salvo no local do Amazon S3 que você especificou.

# Adicionar nós de destino
<a name="canvas-destination-nodes-add"></a>

Um nó de destino no SageMaker Canvas especifica onde armazenar seus dados processados e transformados. Quando você escolhe exportar seus dados transformados para o Amazon S3, o Canvas usa a localização do nó de destino especificado, aplicando todas as transformações que você configurou em seu fluxo de dados. Para obter mais informações sobre trabalhos de exportação para o Amazon S3, consulte a seção anterior. [Exportar para o Amazon S3.](canvas-export-data.md#canvas-export-data-s3)

Por padrão, escolher exportar os dados para o Amazon S3 adiciona um nó de destino ao fluxo de dados. No entanto, você pode adicionar vários nós de destino ao seu fluxo, permitindo que você exporte simultaneamente diferentes conjuntos de transformações ou variações de seus dados para diferentes locais do Amazon S3. Por exemplo, você pode criar um nó de destino que exporta os dados depois de aplicar todas as transformações e outro nó de destino que exporta os dados somente após determinadas transformações iniciais, como uma operação de junção. Essa flexibilidade permite que você exporte e armazene diferentes versões ou subconjuntos de seus dados transformados em locais separados do S3 para vários casos de uso.

Use o procedimento a seguir para adicionar um nó de destino ao seu fluxo de dados.

**Adicionar um novo nó de destino**

1. Navegue até o fluxo de dados.

1. Escolha o ícone de reticências ao lado do nó em que você deseja colocar o nó de destino.

1. No menu de contexto, passe o mouse sobre **Exportar** e selecione **Adicionar destino**.

1. No painel lateral **Destino da exportação**, insira um **nome do conjunto de dados** para nomear a saída.

1. Para a **localização do Amazon S3**, insira a localização do Amazon S3 para a qual você deseja exportar a saída. Você pode inserir o URI, o alias ou o ARN do S3 da localização do S3 ou do ponto de acesso do S3. Para obter mais informações, consulte [Gerenciando o acesso a dados com o recurso Pontos de Acesso Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-points.html) no *Guia do usuário do Amazon S3*.

1. Para **Configurações de exportação**, especifique os seguintes campos:

   1. **Tipo de arquivo**: O formato do arquivo dos dados exportados.

   1. **Delimitador**: o delimitador utilizado para separar valores no arquivo.

   1. **Compressão**: o método de compactação usado para reduzir o tamanho do arquivo.

1. Para **particionamento**, especifique os seguintes campos:

   1. **Número de partições** — O número de arquivos do conjunto de dados que o SageMaker Canvas grava como saída do trabalho.

   1. **Escolher colunas**: você pode escolher um subconjunto de colunas dos dados para incluir nas partições.

1. Escolha **Adicionar** se quiser simplesmente adicionar um nó de destino ao seu fluxo de dados, ou escolha **Adicionar** e, em seguida, escolha **Exportar** se quiser adicionar o nó e iniciar um trabalho de exportação.

Agora você deve ver um novo nó de destino em seu fluxo.

# Editar um nó de destino
<a name="canvas-destination-nodes-edit"></a>

Um *nó de destino* em um fluxo de dados do Amazon SageMaker Canvas especifica o local do Amazon S3 onde seus dados processados e transformados são armazenados, aplicando todas as transformações configuradas em seu fluxo de dados. Você pode editar a configuração de um nó de destino existente e, em seguida, optar por executar novamente o trabalho para sobrescrever os dados no local especificado do Amazon S3. Para obter mais informações sobre a adição de um novo nó de destino, consulte [Adicionar nós de destino](canvas-destination-nodes-add.md).

Use o procedimento a seguir para editar um nó de destino em seu fluxo de dados e iniciar um trabalho de exportação.

**Editar um nó de destino**

1. Navegue até o fluxo de dados.

1. Escolha o ícone de reticências ao lado do nó de destino que você deseja editar.

1. No menu contextual, escolha **Editar**.

1. O painel lateral **Editar destino** é aberto. Nesse painel, você pode editar detalhes como o nome do conjunto de dados, a localização do Amazon S3 e as configurações de exportação e particionamento.

1. (Opcional) Em **Nós adicionais para exportar**, você pode selecionar mais nós de destino para processar ao executar o trabalho de exportação.

1. Deixe a opção **Processar todo o conjunto** de dados selecionada se quiser que o Canvas aplique suas transformações de fluxo de dados em todo o conjunto de dados e exporte o resultado. Se você desmarcar essa opção, o Canvas aplicará somente as transformações à amostra do seu conjunto de dados usado no fluxo de dados interativo do Data Wrangler.

1. Deixe a opção **Configuração automática da tarefa** selecionada se quiser que o Canvas determine automaticamente se a tarefa deve ser executada usando a memória da aplicação Canvas ou uma tarefa do EMR Sem Servidor. Se você desmarcar essa opção e configurar manualmente sua tarefa, poderá optar por usar uma tarefa EMR Serverless ou Processing. SageMaker Para obter instruções sobre como configurar um EMR Serverless ou um trabalho de SageMaker processamento, consulte a seção anterior. [Exportar para o Amazon S3.](canvas-export-data.md#canvas-export-data-s3)

1. Quando terminar de fazer alterações, escolha **Atualizar**.

Salvar alterações na configuração do nó de destino não executa automaticamente uma tarefa nem substitui dados que já foram processados e exportados. Exporte seus dados novamente para executar um trabalho com a nova configuração. Se você decidir exportar seus dados novamente com um trabalho, o Canvas usa a configuração atualizada do nó de destino para transformar e enviar os dados para o local especificado, sobrescrevendo quaisquer dados existentes.

# Crie um cronograma para processar automaticamente novos dados
<a name="canvas-data-export-schedule-job"></a>

**nota**  
A seção a seguir se aplica somente aos trabalhos SageMaker de processamento. Se você usou as configurações padrão do Canvas ou o EMR com tecnologia sem servidor para criar um trabalho remoto para aplicar transformações em seu conjunto de dados completo, esta seção não se aplica.

Se você estiver processando dados periodicamente, poderá criar um cronograma para executar o trabalho de processamento automaticamente. Por exemplo, você pode criar uma programação que execute um trabalho de processamento automaticamente quando você obtiver novos dados. Para obter mais informações sobre o processamento de trabalhos, consulte [Exportar para o Amazon S3.](canvas-export-data.md#canvas-export-data-s3).

Ao criar um trabalho, você deve especificar um perfil do IAM que tenha permissões para criar o trabalho. Você pode usar a [AmazonSageMakerCanvasDataPrepFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerCanvasDataPrepFullAccess.html)política para adicionar permissões.

Adicione a seguinte política de confiança à função para permitir que você EventBridge a assuma.

```
{
    "Effect": "Allow",
    "Principal": {
        "Service": "events.amazonaws.com"
    },
    "Action": "sts:AssumeRole"
}
```

**Importante**  
Quando você cria uma agenda, o Data Wrangler cria uma `eventRule` entrada. EventBridge Você incorre em cobranças pelas regras de eventos que você cria e pelas instâncias usadas para executar o trabalho de processamento.  
Para obter informações sobre EventBridge preços, consulte [ EventBridge Preços da Amazon](https://aws.amazon.com/eventbridge/pricing/). Para obter informações sobre o processamento de preços de trabalhos, consulte [Amazon SageMaker Pricing](https://aws.amazon.com/sagemaker/pricing/).

É possível criar uma programação usando um dos seguintes métodos:
+ [Expressões CRON](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule-schedule.html)
**nota**  
O Data Wrangler não é compatível com as seguintes expressões:  
LW\$1
Abreviações para dias
Abreviações para meses
+ [Expressões RATE](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule-schedule.html#eb-rate-expressions)
+ Recorrente: defina um intervalo de hora em hora ou diário para executar o trabalho.
+ Horário específico: defina dias e horários específicos para executar o trabalho.

As seções a seguir fornecem procedimentos sobre o agendamento de trabalhos ao preencher as configurações do trabalho de processamento de SageMaker IA ao [exportar seus dados para o Amazon S3](canvas-export-data.md#canvas-export-data-s3). Todas as instruções a seguir começam na seção **Agendamentos associados** das configurações do trabalho de SageMaker processamento.

------
#### [ CRON ]

Use o procedimento a seguir para criar uma agenda com uma expressão CRON.

1. **No painel lateral **Exportar para o Amazon S3**, verifique se você desativou a opção **Configuração automática de tarefas** e selecionou a SageMaker opção Processamento.**

1. Nas configurações do trabalho **SageMaker de processamento**, abra a seção **Associar agendamentos** e escolha **Criar novo agendamento**.

1. A caixa de diálogo **Criar um novo perfil** é aberta. Em **Nome do agendamento**, especifique o nome do agendamento.

1. Em **Frequência de execução**, escolha **CRON.**

1. Para cada um dos campos **Minutos**, **Horas**, **Dias do mês****, Mês** e **Dia da semana**, insira valores de expressão CRON válidos.

1. Escolha **Criar**.

1. (Opcional) Escolha **Adicionar outro agendamento** para executar o trabalho em um agendamento adicional.
**nota**  
Você pode associar no máximo duas programações. Os horários são independentes e não se afetam, a menos que os horários se sobreponham.

1. Escolha uma das seguintes opções:
   + **Agende e execute agora**: o trabalho é executado imediatamente e, posteriormente, executado de acordo com os cronogramas.
   + **Somente agendamento**: o trabalho só é executado nas programações que você especificar.

1. Escolha **Exportar** depois de preencher o restante das configurações do trabalho de exportação.

------
#### [ RATE ]

Use o procedimento a seguir para criar uma programação com uma expressão RATE.

1. **No painel lateral **Exportar para o Amazon S3**, verifique se você desativou a opção **Configuração automática de tarefas** e selecionou a SageMaker opção Processamento.**

1. Nas configurações do trabalho **SageMaker de processamento**, abra a seção **Associar agendamentos** e escolha **Criar novo agendamento**.

1. A caixa de diálogo **Criar um novo perfil** é aberta. Em **Nome do agendamento**, especifique o nome do agendamento.

1. Em **Frequência de execução**, escolha **Taxa**.

1. Em **Valor**, especifique um valor inteiro.

1. Em **Unidade**, selecione uma das seguintes opções:
   + **Minutos**
   + **Horas**
   + **Dias**

1. Escolha **Criar**.

1. (Opcional) Escolha **Adicionar outro agendamento** para executar o trabalho em um agendamento adicional.
**nota**  
Você pode associar no máximo duas programações. Os horários são independentes e não se afetam, a menos que os horários se sobreponham.

1. Escolha uma das seguintes opções:
   + **Agende e execute agora**: o trabalho é executado imediatamente e, posteriormente, executado de acordo com os cronogramas.
   + **Somente agendamento**: o trabalho só é executado nas programações que você especificar.

1. Escolha **Exportar** depois de preencher o restante das configurações do trabalho de exportação.

------
#### [ Recurring ]

Use o procedimento a seguir para criar um cronograma que execute um trabalho de forma recorrente.

1. **No painel lateral **Exportar para o Amazon S3**, verifique se você desativou a opção **Configuração automática de tarefas** e selecionou a SageMaker opção Processamento.**

1. Nas configurações do trabalho **SageMaker de processamento**, abra a seção **Associar agendamentos** e escolha **Criar novo agendamento**.

1. A caixa de diálogo **Criar um novo perfil** é aberta. Em **Nome do agendamento**, especifique o nome do agendamento.

1. Em **Frequência de execução**, escolha **Recorrente.**

1. Para **Cada x horas**, especifique a frequência horária com que o trabalho é executado durante o dia. Os valores válidos são números inteiros no intervalo inclusivo de **1** e **23**.

1. Para **Em dias**, escolha uma das seguintes opções:
   + **Todos os dias**
   + **Finais de semana**
   + **Dias da semana**
   + **Selecionar dias**

   1. (Opcional) Se você selecionou **Selecionar dias**, escolha os dias da semana para executar o trabalho.
**nota**  
A programação é reiniciada todos os dias. Se você agendar um trabalho para ser executado a cada cinco horas, ele será executado nos seguintes horários do dia:  
00:00
05:00
10:00
15:00
20:00

1. Escolha **Criar**.

1. (Opcional) Escolha **Adicionar outro agendamento** para executar o trabalho em um agendamento adicional.
**nota**  
Você pode associar no máximo duas programações. Os horários são independentes e não se afetam, a menos que os horários se sobreponham.

1. Escolha uma das seguintes opções:
   + **Agende e execute agora**: o trabalho é executado imediatamente e, posteriormente, executado de acordo com os cronogramas.
   + **Somente agendamento**: o trabalho só é executado nas programações que você especificar.

1. Escolha **Exportar** depois de preencher o restante das configurações do trabalho de exportação.

------
#### [ Specific time ]

Use o procedimento a seguir para criar uma programação que execute um trabalho em horários específicos.

1. **No painel lateral **Exportar para o Amazon S3**, verifique se você desativou a opção **Configuração automática de tarefas** e selecionou a SageMaker opção Processamento.**

1. Nas configurações do trabalho **SageMaker de processamento**, abra a seção **Associar agendamentos** e escolha **Criar novo agendamento**.

1. A caixa de diálogo **Criar um novo perfil** é aberta. Em **Nome do agendamento**, especifique o nome do agendamento.

1. Em **Frequência de execução**, escolha **Hora de início**.

1. Em **Hora de início**, insira uma hora no formato UTC (por exemplo, **09:00**). O horário de início é padronizado para o fuso horário em que você está localizado.

1. Para **Em dias**, escolha uma das seguintes opções:
   + **Todos os dias**
   + **Finais de semana**
   + **Dias da semana**
   + **Selecionar dias**

   1. (Opcional) Se você selecionou **Selecionar dias**, escolha os dias da semana para executar o trabalho.

1. Escolha **Criar**.

1. (Opcional) Escolha **Adicionar outro agendamento** para executar o trabalho em um agendamento adicional.
**nota**  
Você pode associar no máximo duas programações. Os horários são independentes e não se afetam, a menos que os horários se sobreponham.

1. Escolha uma das seguintes opções:
   + **Agende e execute agora**: o trabalho é executado imediatamente e, posteriormente, executado de acordo com os cronogramas.
   + **Somente agendamento**: o trabalho só é executado nas programações que você especificar.

1. Escolha **Exportar** depois de preencher o restante das configurações do trabalho de exportação.

------

Você pode usar a SageMaker IA Console de gerenciamento da AWS para visualizar os trabalhos que estão programados para execução. Seus trabalhos de processamento são executados dentro do Pipelines. Cada trabalho de processamento tem seu próprio pipeline. Ele é executado como uma etapa de processamento dentro do pipeline. Você pode ver as agendas que você criou em um funil. Para obter informações sobre como visualizar um pipeline, consulte [Visualizar os detalhes de um pipeline](pipelines-studio-list.md).

Use o procedimento a seguir para visualizar os trabalhos que você programou.

Para obter os trabalhos que você programou, faça o seguinte:

1. Abra o Amazon SageMaker Studio Classic.

1. Abra o Pipelines

1. Veja os pipelines dos trabalhos que você criou.

   O pipeline que executa o trabalho usa o nome do trabalho como prefixo. Por exemplo, se você criou um trabalho chamado `housing-data-feature-enginnering`, o nome do pipeline é `canvas-data-prep-housing-data-feature-engineering`.

1. Escolha o pipeline que contém seu trabalho.

1. Visualize o status dos pipelines. Pipelines com **status** de **Bem-sucedido** executaram o trabalho de processamento com êxito.

Para interromper a execução do trabalho de processamento, faça o seguinte:

Para interromper a execução de um trabalho de processamento, exclua a regra de evento que especifica a programação. A exclusão de uma regra de evento interrompe a execução de todos os trabalhos associados à programação. Para obter informações sobre como excluir uma regra, consulte Como [desativar ou excluir uma regra da Amazon](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-delete-rule.html). EventBridge 

Você também pode interromper e excluir os pipelines associados aos agendamentos. Para obter informações sobre como interromper um pipeline, consulte [StopPipelineExecution](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_StopPipelineExecution.html). Para obter informações sobre como excluir um pipeline, consulte [DeletePipeline](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DeletePipeline.html#API_DeletePipeline_RequestSyntax).