

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Executar tarefas assíncronas
<a name="running-classifiers"></a>

Depois de treinar um classificador personalizado, use tarefas assíncronas para analisar documentos grandes ou vários documentos em um lote.

A classificação personalizada aceita uma variedade de tipos de documentos de entrada. Para obter detalhes, consulte [Entradas para análise personalizada assíncrona](idp-inputs-async.md).

Se você planeja analisar arquivos de imagem ou documentos PDF digitalizados, sua política do IAM deve conceder permissões para usar dois métodos da API Amazon Textract DetectDocumentText ( AnalyzeDocumente). O Amazon Comprehend invoca esses métodos durante a extração de texto. Para visualizar um exemplo de política, consulte [Permissões necessárias para executar ações de análise de documentos](security_iam_id-based-policy-examples.md#security-iam-based-policy-perform-cmp-actions).

Para classificação de documentos semiestruturados (arquivos de imagem, PDF ou Docx) usando um modelo de texto sem formatação, use o formato de entrada `one document per file`. Além disso, inclua o `DocumentReaderConfig` parâmetro em sua [StartDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_StartDocumentClassificationJob.html)solicitação.

**Topics**
+ [Formatos de arquivo para análise assíncrona](class-inputs-async.md)
+ [Tarefas de análise para classificação personalizada (console)](analysis-jobs-custom-classifier.md)
+ [Tarefas de análise para classificação personalizada (API)](analysis-jobs-custom-class-api.md)
+ [Saídas para trabalhos de análise assíncrona](outputs-class-async.md)

# Formatos de arquivo para análise assíncrona
<a name="class-inputs-async"></a>

Ao executar a análise assíncrona com seu modelo, você tem uma escolha de formatos para documentos de entrada: `One document per line` ou `one document per file`. O formato usado depende do tipo de documento que deseja analisar, conforme descrito na tabela a seguir.


| Description | Formato | 
| --- | --- | 
| A entrada contém vários arquivos. Cada arquivo contém um documento de entrada. Esse formato é ideal para coleções de documentos grandes, como artigos de jornal ou artigos científicos. Além disso, use esse formato para documentos semiestruturados (arquivos de imagem, PDF ou Docx) usando um classificador de documentos nativo. | Um documento por arquivo | 
|  A entrada é um ou mais arquivos. Cada linha no arquivo é um documento de entrada separado. Esse formato é ideal para documentos curtos, como mensagens de texto ou publicações em redes sociais.  | Um documento por linha | 

**Um documento por arquivo**

Com o formato `one document per file`, cada arquivo representa um documento de entrada. 

**Um documento por linha**

Com o formato `One document per line`, cada documento é colocado em uma linha separada e nenhum cabeçalho é usado. O rótulo não está incluído em cada linha (já que você ainda não conhece o rótulo do documento). Cada linha do arquivo (o final do documento individual) deve terminar com uma alimentação de linha (LF,\$1n), uma devolução de carro (CR,\$1 r) ou ambas (CRLF, \$1r\$1n). Não use o separador de linha UTF-8 (u\$12028) para finalizar uma linha.

O exemplo a seguir mostra o formato do arquivo de entrada.

```
Text of document 1 \n
Text of document 2 \n
Text of document 3 \n
Text of document 4 \n
```

Para qualquer formato, use a codificação UTF-8 para arquivos de texto. Depois de preparar os arquivos, coloque-os no bucket do S3 que está usando para os dados de entrada.

Ao iniciar uma tarefa de classificação, você especifica esse local do Amazon S3 para seus dados de entrada. O URI deve estar na mesma região que a API do endpoint que você está chamando. O URI pode apontar para um único arquivo (como ao usar o método “um documento por linha”) ou pode ser o prefixo de uma coleção de arquivos de dados. 

Por exemplo, se você usar o URI `S3://bucketName/prefix`, se o prefixo for um único arquivo, o Amazon Comprehend usará esse arquivo como entrada. Se mais de um arquivo começar com o prefixo, o Amazon Comprehend usará todos eles como entrada. 

Conceda ao Amazon Comprehend acesso ao bucket do S3 contendo sua coleção de documentos e arquivos de saída. Para obter mais informações, consulte [Permissões baseadas em perfis necessárias para operações assíncronas](security_iam_id-based-policy-examples.md#auth-role-permissions).

# Tarefas de análise para classificação personalizada (console)
<a name="analysis-jobs-custom-classifier"></a>

Depois de criar e treinar um [classificador de documentos personalizado](), use o console para executar tarefas de classificação personalizadas com o modelo.

**Criar uma tarefa de classificação personalizada (console)**

1. Faça login no Console de gerenciamento da AWS e abra o console do Amazon Comprehend em [https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/)

1. No menu à esquerda, escolha **Tarefas de análise** e, em seguida, **Criar tarefa**.

1. Dê um nome ao trabalho de classificação. O nome deve ser exclusivo na sua conta e na sua região atual.

1. Em **Tipo de análise**, escolha **Classificação personalizada**.

1. Em **Selecionar classificador**, escolha o classificador personalizado a ser usado.

1. (Opcional) Se você optar por criptografar os dados que o Amazon Comprehend usa ao processar sua tarefa, escolha **Criptografia de tarefas**. Em seguida, escolha se deseja usar uma chave KMS associada à conta atual ou uma de outra conta.
   + Se estiver usando uma chave associada à conta atual, escolha o ID da chave para o **ID da chave KMS**.
   + Se estiver usando uma chave associada a uma conta diferente, insira o ARN do ID da chave em **ARN da chave KMS**.
**nota**  
Para obter mais informações sobre como criar e usar chaves KMS e a criptografia associada, consulte [Serviço de gerenciamento de chaves (KMS)](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html).

1. Em **Dados de entrada**, insira a localização do bucket do Amazon S3 contendo seus documentos de entrada ou navegue até ele escolhendo **Procurar no S3**. Esse bucket deve estar na mesma região da API que você está chamando. O perfil do IAM que você está usando para obter permissões de acesso à tarefa de classificação deve ter permissões de leitura para o bucket do S3.

   Para alcançar o mais alto nível de precisão no treinamento de um modelo, combine o tipo de entrada com o tipo de modelo do classificador. A tarefa classificadora retornará um aviso se você enviar documentos nativos para um modelo de texto sem formatação ou documentos de texto sem formatação para um modelo de documento nativo. Para obter mais informações, consulte [Modelos de classificação de treinamento](training-classifier-model.md).

1. (Opcional) Em **Formato de entrada**, escolha o formato dos documentos de entrada. O formato pode ser um documento por arquivo ou um documento por linha em um único arquivo. Um documento por linha se aplica somente a documentos de texto. 

1. (Opcional) Para **Modo de leitura do documento**, você pode substituir as ações padrão de extração de texto. Para obter mais informações, consulte [Configurar opções de extração de texto](idp-set-textract-options.md). 

1. Em **Dados de saída**, insira a localização do bucket do Amazon S3 em que o Amazon Comprehend deve gravar os dados de saída da tarefa ou navegar até elas escolhendo **Procurar no S3** Esse bucket deve estar na mesma região da API que você está chamando. O perfil do IAM que você está usando para obter permissões de acesso à tarefa de classificação deve ter permissões de gravação para o bucket do S3.

1. (Opcional) Se optar por criptografar o resultado de saída da sua tarefa, escolha **Criptografia**. Em seguida, escolha se deseja usar uma chave KMS associada à conta atual ou uma de outra conta.
   + Se você estiver usando uma chave associada à conta atual, escolha o alias ou ID da chave para o **ID da chave KMS**.
   + Se você estiver usando uma chave associada a uma conta diferente, insira o ARN do alias ou ID da chave em **ID da chave KMS**.

1. (Opcional) Para lançar seus recursos no Amazon Comprehend a partir de uma VPC, insira o ID da VPC em **VPC** ou escolha o ID na lista suspensa. 

   1. Escolha a sub-rede em **Sub-rede(s)**. Depois de selecionar a primeira sub-rede, é possível escolher outras adicionais.

   1. Em **Grupo(s) de segurança**, escolha o grupo de segurança a ser usado se tiver especificado um. Depois de selecionar o primeiro grupo de segurança, é possível escolher outros.
**nota**  
Quando você usa uma VPC com sua tarefa de classificação, o `DataAccessRole` usado para as operações Create and Start deve conceder permissões à VPC que acessa o bucket de saída.

1. Escolha **Criar tarefa** para criar a tarefa de classificação de documentos.

# Tarefas de análise para classificação personalizada (API)
<a name="analysis-jobs-custom-class-api"></a>

Depois de [criar e treinar](train-custom-classifier-api.md) um classificador de documentos personalizado, use o classificador para executar tarefas de análise.

Use a [StartDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_StartDocumentClassificationJob.html)operação para começar a classificar documentos sem rótulos. Você especifica o bucket do S3 que contém os documentos de entrada, o bucket do S3 para os documentos de saída e o classificador a ser usado.

Para alcançar o mais alto nível de precisão no treinamento de um modelo, combine o tipo de entrada com o tipo de modelo do classificador. A tarefa classificadora retornará um aviso se você enviar documentos nativos para um modelo de texto sem formatação ou documentos de texto sem formatação para um modelo de documento nativo. Para obter mais informações, consulte [Modelos de classificação de treinamento](training-classifier-model.md).

 [StartDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_StartDocumentClassificationJob.html)é assíncrono. Depois de iniciar o trabalho, use a [DescribeDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDocumentClassificationJob.html)operação para monitorar seu progresso. Quando o campo `Status` na resposta exibir `COMPLETED`, você poderá acessar a saída no local especificado.

**Topics**
+ [Usando o AWS Command Line Interface](#get-started-api-customclass-cli)
+ [Usando o AWS SDK para Java ou SDK para Python](#get-started-api-customclass-java)

## Usando o AWS Command Line Interface
<a name="get-started-api-customclass-cli"></a>

Os exemplos a seguir são a `StartDocumentClassificationJob` operação e outro classificador personalizado APIs com o. AWS CLI

Os exemplos a seguir usam o formato de comando para Unix, Linux e macOS. Para Windows, substitua o caractere de continuação Unix de barra invertida (\$1) no final de cada linha por um circunflexo (^).

Execute uma tarefa de classificação personalizada usando a operação `StartDocumentClassificationJob`.

```
aws comprehend start-document-classification-job \
     --region region \
     --document-classifier-arn arn:aws:comprehend:region:account number:document-classifier/testDelete \
     --input-data-config S3Uri=s3://S3Bucket/docclass/file name,InputFormat=ONE_DOC_PER_LINE \
     --output-data-config S3Uri=s3://S3Bucket/output \
     --data-access-role-arn arn:aws:iam::account number:role/resource name
```

Obtenha informações sobre um classificador personalizado com o ID da tarefa usando a operação `DescribeDocumentClassificationJob`.

```
aws comprehend describe-document-classification-job \
     --region region \
     --job-id job id
```

Liste todas as tarefas de classificação personalizada em sua conta usando a operação `ListDocumentClassificationJobs`.

```
aws comprehend list-document-classification-jobs
     --region region
```

## Usando o AWS SDK para Java ou SDK para Python
<a name="get-started-api-customclass-java"></a>

Para exemplos de SDK sobre como iniciar um classificador personalizado, consulte [Use `StartDocumentClassificationJob` com um AWS SDK ou CLI](example_comprehend_StartDocumentClassificationJob_section.md).

# Saídas para trabalhos de análise assíncrona
<a name="outputs-class-async"></a>

Depois que uma tarefa de análise é concluída, ela armazena os resultados no bucket do S3 que você especificou na solicitação.

## Saídas para entradas de texto
<a name="outputs-class-async-text"></a>

Para qualquer formato de documentos de entrada de texto (com várias classes ou com vários rótulos), a saída da tarefa consiste em um único arquivo chamado `output.tar.gz`. É um arquivo compactado contendo um arquivo de texto com a saída. 

**Saída multiclasse**

Quando você usa um classificador treinado no modo multiclasse, seus resultados exibem as `classes`. Cada uma dessas `classes` é a classe usada para criar o conjunto de categorias ao treinar seu classificador.

Para obter mais detalhes sobre esses campos de saída, consulte a [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)Referência da *API Amazon Comprehend*.

Os exemplos a seguir usam as seguintes classes mutuamente exclusivas.

```
DOCUMENTARY
SCIENCE_FICTION
ROMANTIC_COMEDY
SERIOUS_DRAMA
OTHER
```

Se o formato dos dados de entrada for um documento por linha, o arquivo de saída conterá uma linha para cada linha na entrada. Cada linha inclui o nome do arquivo, o número da linha com base em zero da linha de entrada e a classe ou classes encontradas no documento. Termina com a confiança que o Amazon Comprehend tem de que a instância individual foi classificada corretamente.

Por exemplo:

```
{"File": "file1.txt", "Line": "0", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "1", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]}
{"File": "file2.txt", "Line": "2", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Documentary", "Score": 0.0372}]}
{"File": "file2.txt", "Line": "3", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}
```

Se o formato dos dados de entrada for um documento por arquivo, o arquivo de saída conterá uma linha para cada documento. Cada linha tem o nome do arquivo e a classe ou classes encontradas no documento. Termina com a confiança de que o Amazon Comprehend classificou a instância individual com precisão.

Por exemplo:

```
{"File": "file0.txt", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]}
{"File": "file2.txt", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Domentary", "Score": 0.0372}]}
{"File": "file3.txt", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}
```

**Saída multirrótulo**

Quando você usa um classificador treinado no modo multirrótulo, seus resultados exibem os `labels`. Cada um desses `labels` é o rótulo usado para criar o conjunto de categorias ao treinar seu classificador.

Os exemplos a seguir usam esses rótulos exclusivos.

```
SCIENCE_FICTION
ACTION
DRAMA
COMEDY
ROMANCE
```

Se o formato dos dados de entrada for um documento por linha, o arquivo de saída conterá uma linha para cada linha na entrada. Cada linha inclui o nome do arquivo, o número da linha com base em zero da linha de entrada e a classe ou classes encontradas no documento. Termina com a confiança que o Amazon Comprehend tem de que a instância individual foi classificada corretamente.

Por exemplo:

```
{"File": "file1.txt", "Line": "0", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "1", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "2", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "3", "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}
```

Se o formato dos dados de entrada for um documento por arquivo, o arquivo de saída conterá uma linha para cada documento. Cada linha tem o nome do arquivo e a classe ou classes encontradas no documento. Termina com a confiança de que o Amazon Comprehend classificou a instância individual com precisão.

Por exemplo:

```
{"File": "file0.txt", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]}
{"File": "file1.txt", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]}
{"File": "file2.txt", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]}
{"File": "file3.txt”, "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}
```

## Saídas para documentos de entrada semiestruturados
<a name="outputs-class-async-other"></a>

Para documentos de entrada semiestruturados, a saída pode incluir os seguintes campos adicionais:
+ DocumentMetadata — Extração de informações sobre o documento. Os metadados incluem uma lista de páginas no documento, com o número de caracteres extraídos de cada página. Esse campo estará presente na resposta se a solicitação incluir o parâmetro `Byte`.
+ DocumentType — O tipo de documento para cada página no documento de entrada. Esse campo estará presente na resposta se a solicitação incluir o parâmetro `Byte`.
+ Erros: erros no nível da página que o sistema detectou ao processar o documento de entrada. O campo estará vazio se o sistema não encontrar erros.

Para obter mais detalhes sobre esses campos de saída, consulte a [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)Referência da *API Amazon Comprehend*.

O exemplo a seguir mostra a saída de um arquivo PDF digitalizado de duas páginas.

```
[{ #First page output
    "Classes": [
        {
            "Name": "__label__2 ",
            "Score": 0.9993996620178223
        },
        {
            "Name": "__label__3 ",
            "Score": 0.0004330444789957255
        }
    ],
    "DocumentMetadata": {
        "PageNumber": 1,
        "Pages": 2
    },
    "DocumentType": "ScannedPDF",
    "File": "file.pdf",
    "Version": "VERSION_NUMBER"
},
#Second page output
{
    "Classes": [
        {
            "Name": "__label__2 ",
            "Score": 0.9993996620178223
        },
        {
            "Name": "__label__3 ",
            "Score": 0.0004330444789957255
        }
    ],
    "DocumentMetadata": {
        "PageNumber": 2,
        "Pages": 2
    },
    "DocumentType": "ScannedPDF",
    "File": "file.pdf",
    "Version": "VERSION_NUMBER" 
}]
```