

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Processamento de dados usando o comando `dataprocessing`
<a name="machine-learning-api-dataprocessing"></a>

Use o comando `dataprocessing` do Neptune ML para criar um trabalho de processamento de dados, conferir o status, interrompê-lo ou listar todos os trabalhos ativos de processamento de dados.

## Criar um trabalho de processamento de dados usando o comando `dataprocessing` do Neptune ML
<a name="machine-learning-api-dataprocessing-create-job"></a>

Um comando `dataprocessing` típico do Neptune ML para criar um trabalho tem a seguinte aparência:

```
curl \
  -X POST https://(your Neptune endpoint)/ml/dataprocessing \
  -H 'Content-Type: application/json' \
  -d '{
        "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)",
        "id" : "(a job ID for the new job)",
        "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)"
      }'
```

Um comando para iniciar o reprocessamento incremental tem a seguinte aparência:

```
curl \
  -X POST https://(your Neptune endpoint)/ml/dataprocessing \
  -H 'Content-Type: application/json' \
  -d '{
        "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)",
        "id" : "(a job ID for this job)",
        "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)"
        "previousDataProcessingJobId" : "(the job ID of a previously completed job to update)"
}'
```

**Parâmetros para criação de trabalhos `dataprocessing`**
+ **`id`**: (*opcional*) um identificador exclusivo do novo trabalho.

  *Tipo*: string. *Padrão*: um UUID gerado automaticamente.
+ **`previousDataProcessingJobId`**: (*opcional*) o ID de um trabalho de processamento de dados concluído executado em uma versão anterior dos dados.

  *Tipo*: string. *Padrão*: *nenhum*.

  *Observação*: use para processamento incremental de dados, para atualizar o modelo quando os dados do grafo forem alterados (mas não quando os dados forem excluídos).
+ **`inputDataS3Location`**— (*Obrigatório*) O URI do local do Amazon S3 em que você deseja que a SageMaker IA baixe os dados necessários para executar o trabalho de processamento de dados.

  *Tipo*: string.
+ **`processedDataS3Location`**— (*Obrigatório*) O URI do local do Amazon S3 em que você deseja que a SageMaker IA salve os resultados de um trabalho de processamento de dados.

  *Tipo*: string.
+ **`sagemakerIamRoleArn`**— (*Opcional*) O ARN de uma função do IAM para execução de SageMaker IA.

  *Tipo*: string. *Observação*: deve estar listado no grupo de parâmetros do cluster de banco de dados ou ocorrerá um erro.
+ **`neptuneIamRoleArn`**— (*Opcional*) O nome de recurso da Amazon (ARN) de uma função do IAM que a SageMaker IA pode assumir para realizar tarefas em seu nome.

  *Tipo*: string. *Observação*: deve estar listado no grupo de parâmetros do cluster de banco de dados ou ocorrerá um erro.
+ **`processingInstanceType`**: (*opcional*) o tipo de instância de ML usada durante o processamento de dados. A memória deve ser grande o suficiente para armazenar o conjunto de dados processado.

  *Tipo*: string. *Padrão*: o menor tipo `ml.r5` cuja memória é dez vezes maior que o tamanho dos dados de grafos exportados no disco.

  *Observação*: o Neptune ML pode selecionar o tipo de instância automaticamente. Consulte [Selecionar uma instância para processamento de dados](machine-learning-on-graphs-instance-selection.md#machine-learning-on-graphs-processing-instance-size).
+ **`processingInstanceVolumeSizeInGB`**: (*opcional*) o tamanho do volume do disco da instância de processamento. Tanto os dados de entrada quanto os dados processados são armazenados em disco, portanto, o tamanho do volume deve ser grande o suficiente para conter os dois conjuntos de dados.

  *Tipo*: número inteiro. *Padrão*: `0`.

  *Observação*: se não for especificado ou for 0, o Neptune ML escolherá o tamanho do volume automaticamente com base no tamanho dos dados.
+ **`processingTimeOutInSeconds`**: (*opcional*) tempo limite em segundos do trabalho de processamento de dados.

  *Tipo*: número inteiro. *Padrão*: `86,400` (um dia).
+ **`modelType`**: (*opcional*) um dos dois tipos de modelo que o Neptune ML aceita no momento: modelos de grafos heterogêneos (`heterogeneous`) e grafo de conhecimento (`kge`).

  *Tipo*: string. *Padrão*: *nenhum*.

  *Observação*: se não for especificado, o Neptune ML escolherá o tipo de modelo automaticamente com base nos dados.
+ **`configFileName`**: (*opcional*) um arquivo de especificação de dados que descreve como carregar os dados de grafos exportados para treinamento. O arquivo é gerado automaticamente pelo kit de ferramentas de exportação do Neptune.

  *Tipo*: string. *Padrão*: `training-data-configuration.json`.
+ **`subnets`**— (*Opcional*) A IDs das sub-redes na VPC Neptune.

  *Tipo*: lista de strings. *Padrão*: *nenhum*.
+ **`securityGroupIds`**— (*Opcional*) O grupo de segurança da VPC. IDs

  *Tipo*: lista de strings. *Padrão*: *nenhum*.
+ **`volumeEncryptionKMSKey`**— (*Opcional*) A chave AWS Key Management Service (AWS KMS) que a SageMaker IA usa para criptografar dados no volume de armazenamento anexado às instâncias de computação de ML que executam o trabalho de processamento.

  *Tipo*: string *Padrão*: *nenhum*.
+ **`enableInterContainerTrafficEncryption`**: (*opcional*) habilite ou desabilite a criptografia de tráfego entre contêineres em trabalhos de treinamento ou ajuste de hiperparâmetros.

  *Tipo*: booliano. *Padrão*: *verdadeiro*.
**nota**  
O parâmetro `enableInterContainerTrafficEncryption` só está disponível na [versão 1.2.0.2.R3 do mecanismo](engine-releases-1.2.0.2.R3.md).
+ **`s3OutputEncryptionKMSKey`**— (*Opcional*) A chave AWS Key Management Service (AWS KMS) que a SageMaker IA usa para criptografar a saída do trabalho de treinamento.

  *Tipo*: string *Padrão*: *nenhum*.

## Obter o status de um trabalho de processamento de dados usando o comando `dataprocessing` do Neptune ML
<a name="machine-learning-api-dataprocessing-get-job-status"></a>

Um exemplo de comando `dataprocessing` do Neptune ML para o status de um trabalho tem a seguinte aparência:

```
curl -s \
  "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)" \
  | python -m json.tool
```

**Parâmetros para o status do trabalho `dataprocessing`**
+ **`id`**: (*obrigatório*) o identificador exclusivo do trabalho de processamento de dados.

  *Tipo*: string.
+ **`neptuneIamRoleArn`**— (*Opcional*) O ARN de uma função do IAM que fornece ao Neptune acesso aos recursos de IA e SageMaker Amazon S3.

  *Tipo*: string. *Observação*: deve estar listado no grupo de parâmetros do cluster de banco de dados ou ocorrerá um erro.

## Interromper um trabalho de processamento de dados usando o comando `dataprocessing` do Neptune ML
<a name="machine-learning-api-dataprocessing-stop-job"></a>

Um exemplo de comando `dataprocessing` do Neptune ML para interromper um trabalho tem a seguinte aparência:

```
curl -s \
  -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)"
```

Ou esta:

```
curl -s \
  -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)?clean=true"
```

**Parâmetros para um trabalho de interrupção `dataprocessing`**
+ **`id`**: (*obrigatório*) o identificador exclusivo do trabalho de processamento de dados.

  *Tipo*: string.
+ **`neptuneIamRoleArn`**— (*Opcional*) O ARN de uma função do IAM que fornece ao Neptune acesso aos recursos de IA e SageMaker Amazon S3.

  *Tipo*: string. *Observação*: deve estar listado no grupo de parâmetros do cluster de banco de dados ou ocorrerá um erro.
+ **`clean`**: (*opcional*) esse sinalizador especifica que todos os artefatos do Amazon S3 devem ser excluídos quando o trabalho é interrompido.

  *Tipo*: booliano. *Padrão*: `FALSE`.

## Listar trabalhos de processamento de dados ativos usando o comando `dataprocessing` do Neptune ML
<a name="machine-learning-api-dataprocessing-list-jobs"></a>

Um exemplo de comando `dataprocessing` do Neptune ML para listar trabalhos ativos tem a seguinte aparência:

```
curl -s "https://(your Neptune endpoint)/ml/dataprocessing"
```

Ou esta:

```
curl -s "https://(your Neptune endpoint)/ml/dataprocessing?maxItems=3"
```

**Parâmetros para trabalhos de lista `dataprocessing`**
+ **`maxItems`**: (*opcional*) o número máximo de itens a serem gerados.

  *Tipo*: número inteiro. *Padrão*: `10`. *Valor máximo permitido*: `1024`.
+ **`neptuneIamRoleArn`**— (*Opcional*) O ARN de uma função do IAM que fornece ao Neptune acesso aos recursos de IA e SageMaker Amazon S3.

  *Tipo*: string. *Observação*: deve estar listado no grupo de parâmetros do cluster de banco de dados ou ocorrerá um erro.