

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Ejecución de trabajos asíncronos
<a name="running-classifiers"></a>

Después de entrenar un clasificador personalizado, puede utilizar trabajos asíncronos para analizar documentos grandes o varios documentos en un lote.

La clasificación personalizada acepta una variedad de tipos de documentos de entrada. Para obtener más información, consulte [Entradas para análisis personalizados asíncronos](idp-inputs-async.md).

Si planea analizar archivos de imagen o documentos PDF escaneados, su política de IAM debe conceder permisos para usar dos métodos de la API Amazon Textract DetectDocumentText ( AnalyzeDocumenty). Amazon Comprehend invoca estos métodos durante la extracción de texto. Para ver una política de ejemplo, consulte [Permisos necesarios para realizar acciones de análisis de documentos](security_iam_id-based-policy-examples.md#security-iam-based-policy-perform-cmp-actions).

Para clasificar documentos semiestructurados (archivos de imagen, PDF o Docx) mediante un modelo de texto sin formato, utilice el formato de entrada `one document per file`. Además, incluya el `DocumentReaderConfig` parámetro en su solicitud. [StartDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_StartDocumentClassificationJob.html)

**Topics**
+ [Formatos de archivo para análisis asíncrono](class-inputs-async.md)
+ [Trabajos de análisis para una clasificación personalizada (consola)](analysis-jobs-custom-classifier.md)
+ [Trabajos de análisis para una clasificación personalizada (API)](analysis-jobs-custom-class-api.md)
+ [Salidas para trabajos de análisis asíncronos](outputs-class-async.md)

# Formatos de archivo para análisis asíncrono
<a name="class-inputs-async"></a>

Cuando ejecuta un análisis asíncrono con su modelo, puede elegir entre varios formatos para los documentos de entrada: `One document per line` o `one document per file`. El formato que utilice depende del tipo de documentos que desee analizar, tal como se describe en la tabla siguiente.


| Description (Descripción) | Formato | 
| --- | --- | 
| La entrada contiene varios archivos. Cada archivo contiene un documento de entrada. Este formato es el mejor para colecciones de documentos grandes, como artículos de periódicos o artículos científicos. Utilice también este formato para documentos semiestructurados (archivos de imagen, PDF o Docx) mediante un clasificador de documentos nativo. | Un documento por archivo | 
|  La entrada comprende uno o más archivos. Cada línea del archivo es un documento de entrada independiente. Este formato es el mejor para documentos cortos, como mensajes de texto o publicaciones en redes sociales.  | Un documento por línea | 

**Un documento por archivo**

Con el formato `one document per file`, cada archivo representa un documento de entrada. 

**Un documento por línea**

Con el formato `One document per line`, cada documento se coloca en una línea independiente y no se utiliza ningún encabezado. La etiqueta no está incluida en cada línea (ya que aún no conoce la etiqueta del documento). Cada línea del archivo (el final del documento individual) debe terminar con un salto de línea (LF, \$1n), un retorno de carro (CR, \$1r) o ambas (CRLF, \$1r\$1n). No utilice el separador de líneas UTF-8 (u\$12028) para terminar una línea.

En el ejemplo siguiente se muestra el formato del archivo de entrada.

```
Text of document 1 \n
Text of document 2 \n
Text of document 3 \n
Text of document 4 \n
```

Para cualquiera de los dos formatos, utilice la codificación UTF-8 para los archivos de texto. Después de preparar los archivos, colóquelos en el bucket de S3 que está utilizando para introducir los datos de entrada.

Al iniciar un trabajo de clasificación, debe especificar esta ubicación de Amazon S3 para los datos de entrada. El URI debe estar situado en la misma región que el punto de conexión al que está llamando. El URI puede apuntar a un único archivo (como cuando se utiliza el método “un documento por línea”), o puede ser el prefijo de un conjunto de archivos de datos. 

Por ejemplo, si utiliza el URI `S3://bucketName/prefix` y si el prefijo es un único archivo, Amazon Comprehend utilizará ese archivo como entrada. Si más de un archivo comienza con el prefijo, Amazon Comprehend los utiliza a todos como entrada. 

Conceda a Amazon Comprehend acceso al bucket de S3 que contiene la colección de documentos y los archivos de salida. Para obtener más información, consulte [Se requieren permisos basados en roles para las operaciones asíncronas](security_iam_id-based-policy-examples.md#auth-role-permissions).

# Trabajos de análisis para una clasificación personalizada (consola)
<a name="analysis-jobs-custom-classifier"></a>

Tras crear y entrenar un [clasificador de documentos personalizado](), puede utilizar la consola para ejecutar trabajos de clasificación personalizada con el modelo.

**Cómo crear un trabajo de clasificación personalizado (consola)**

1. Inicie sesión en la consola Amazon Comprehend Consola de administración de AWS y ábrala en [https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/)

1. En el menú de la izquierda, seleccione **Trabajos de análisis** y, a continuación, seleccione **Crear trabajo**.

1. Asigne un nombre al trabajo de clasificación. El nombre debe ser único en su cuenta y región actuales.

1. En **Tipo de análisis**, seleccione **Clasificación personalizada**.

1. En **Seleccionar clasificador**, elija el clasificador personalizado que desee utilizar.

1. (Opcional) Si decide cifrar los datos que Amazon Comprehend utiliza al procesar su trabajo, seleccione **Cifrado de tareas**. A continuación, elija si desea utilizar una clave de KMS asociada a la cuenta actual o una de otra cuenta.
   + Si utiliza una clave asociada a la cuenta actual, elija el ID de clave para el **ID de la clave KMS**.
   + Si utiliza una clave asociada a una cuenta diferente, introduzca el ARN del ID de clave que figura en el **ID de la clave KMS**.
**nota**  
Para obtener más información sobre la creación y el uso de las claves de KMS y el cifrado asociado, consulte el [Servicio de administración de claves (KMS)](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html).

1. En **Datos de entrada**, introduzca la ubicación del bucket de Amazon S3 que contiene los documentos de entrada o navegue hacia él seleccionando **Explorar S3**. Este bucket debe estar en la misma región que la API a la que está llamando. El rol de IAM que utilice para los permisos de acceso al trabajo de clasificación debe tener permisos de lectura para el bucket de S3.

   Para lograr el máximo nivel de precisión en el entrenamiento de un modelo, haga coincidir el tipo de entrada con el tipo de modelo del clasificador. El trabajo del clasificador muestra una advertencia si envía documentos nativos a un modelo de texto sin formato o documentos de texto sin formato a un modelo de documento nativo. Para obtener más información, consulte [Modelos de clasificación de entrenamiento](training-classifier-model.md).

1. (Opcional) Para el **Formato de entrada** puede elegir el formato de los documentos de entrada. El formato puede ser un documento por archivo o un documento por línea en un solo archivo. Un documento por línea solo se aplica a los documentos de texto. 

1. (Opcional) En el **modo de lectura de documentos**, puede anular las acciones de extracción de texto predeterminadas. Para obtener más información, consulte [Configuración de las opciones de extracción de texto](idp-set-textract-options.md). 

1. En **Datos de salida**, introduzca la ubicación del bucket de Amazon S3 en la que Amazon Comprehend debe escribir los datos de salida del trabajo o diríjase a él seleccionando **Explorar S3**. Este bucket debe estar en la misma región que la API a la que está llamando. El rol de IAM que utilice para los permisos de acceso al trabajo de clasificación debe tener permisos de escritura para el bucket de S3.

1. (Opcional) Si decide cifrar el resultado de salida de su trabajo, seleccione **Cifrado**. A continuación, elija si desea utilizar una clave de KMS asociada a la cuenta actual o una de otra cuenta.
   + Si utiliza una clave asociada a la cuenta actual, seleccione el alias o el ID de la clave para el **ID de la clave KMS**.
   + Si utiliza una clave asociada a una cuenta diferente, introduzca el ARN del alias o ID de la clave que figura en el **ID de la clave KMS**.

1. (Opcional) Para lanzar sus recursos a Amazon Comprehend desde una VPC, introduzca el ID de VPC en **VPC** o elija el ID en la lista desplegable. 

   1. Seleccione la subred en **Subred(es)**. Después de seleccionar la primera subred, puede elegir otras adicionales.

   1. En **Grupo(s) de seguridad**, seleccione el grupo de seguridad que desea usar si especificó uno. Después de seleccionar el primer grupo de seguridad, puede elegir otros adicionales.
**nota**  
Cuando utiliza una VPC con su trabajo de clasificación, el `DataAccessRole` utilizado para las operaciones de creación e inicio debe conceder permisos a la VPC que accede al bucket de salida.

1. Seleccione **Crear trabajo** para crear el trabajo de clasificación de documentos.

# Trabajos de análisis para una clasificación personalizada (API)
<a name="analysis-jobs-custom-class-api"></a>

Tras [crear y entrenar](train-custom-classifier-api.md) un clasificador de documentos personalizado, puede utilizarlo para ejecutar trabajos de análisis.

Utilice la [StartDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_StartDocumentClassificationJob.html)operación para empezar a clasificar los documentos sin etiquetar. Debe especificar el bucket de S3 que contiene los documentos de entrada, el bucket de S3 para los documentos de salida y el clasificador que se va a utilizar.

Para lograr el máximo nivel de precisión en el entrenamiento de un modelo, haga coincidir el tipo de entrada con el tipo de modelo del clasificador. El trabajo del clasificador muestra una advertencia si envía documentos nativos a un modelo de texto sin formato o documentos de texto sin formato a un modelo de documento nativo. Para obtener más información, consulte [Modelos de clasificación de entrenamiento](training-classifier-model.md).

 [StartDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_StartDocumentClassificationJob.html)es asíncrono. Una vez que haya iniciado el trabajo, utilice la [DescribeDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDocumentClassificationJob.html)operación para supervisar su progreso. Cuando el campo `Status` de la respuesta muestre `COMPLETED`, podrá acceder a la salida en la ubicación que haya especificado.

**Topics**
+ [Usando el AWS Command Line Interface](#get-started-api-customclass-cli)
+ [Uso del AWS SDK para Java o SDK para Python](#get-started-api-customclass-java)

## Usando el AWS Command Line Interface
<a name="get-started-api-customclass-cli"></a>

En el siguiente ejemplo, se muestra la `StartDocumentClassificationJob` operación y otro clasificador personalizado APIs con. AWS CLI

Los siguientes ejemplos usan el formato de comando para Unix, Linux y macOS. Para Windows, sustituya la barra diagonal invertida (\$1) utilizada como carácter de continuación de Unix al final de cada línea por el signo de intercalación (^).

Ejecución de un trabajo de clasificación personalizada mediante la operación `StartDocumentClassificationJob`.

```
aws comprehend start-document-classification-job \
     --region region \
     --document-classifier-arn arn:aws:comprehend:region:account number:document-classifier/testDelete \
     --input-data-config S3Uri=s3://S3Bucket/docclass/file name,InputFormat=ONE_DOC_PER_LINE \
     --output-data-config S3Uri=s3://S3Bucket/output \
     --data-access-role-arn arn:aws:iam::account number:role/resource name
```

Obtenga información sobre un clasificador personalizado con el identificador del trabajo mediante la operación `DescribeDocumentClassificationJob` .

```
aws comprehend describe-document-classification-job \
     --region region \
     --job-id job id
```

Enumere todos los trabajos de clasificación personalizada de su cuenta mediante la operación `ListDocumentClassificationJobs`.

```
aws comprehend list-document-classification-jobs
     --region region
```

## Uso del AWS SDK para Java o SDK para Python
<a name="get-started-api-customclass-java"></a>

Para ver ejemplos del SDK sobre cómo iniciar un trabajo de clasificador personalizado, consulte [Úselo `StartDocumentClassificationJob` con un AWS SDK o CLI](example_comprehend_StartDocumentClassificationJob_section.md).

# Salidas para trabajos de análisis asíncronos
<a name="outputs-class-async"></a>

Una vez finalizado un trabajo de análisis, almacena los resultados en el bucket de S3 que especificó en la solicitud.

## Salidas para entradas de texto
<a name="outputs-class-async-text"></a>

Para cualquier formato de documentos de entrada de texto (multiclase o multietiqueta), el resultado del trabajo consiste en un único archivo denominado `output.tar.gz`. Es un archivo comprimido que contiene un archivo de texto con la salida. 

**Salida multiclase**

Cuando utiliza un clasificador entrenado en modo multiclase, sus resultados muestran `classes`. Cada una de estas `classes` es la clase que se utiliza para crear el conjunto de categorías al entrenar al clasificador.

Para obtener más información sobre estos campos de salida, consulte la referencia [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)de la *API de Amazon Comprehend*.

En los ejemplos siguientes se utilizan las siguientes clases que se excluyen mutuamente.

```
DOCUMENTARY
SCIENCE_FICTION
ROMANTIC_COMEDY
SERIOUS_DRAMA
OTHER
```

Si el formato de datos de entrada es un documento por línea, el archivo de salida contiene una línea por cada línea de la entrada. Cada línea incluye el nombre del archivo, el número de línea basado en cero de la línea de entrada y la clase o clases que se encuentran en el documento. Esto termina con la confianza de que Amazon Comprehend clasificó correctamente la instancia individual.

Por ejemplo:

```
{"File": "file1.txt", "Line": "0", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "1", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]}
{"File": "file2.txt", "Line": "2", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Documentary", "Score": 0.0372}]}
{"File": "file2.txt", "Line": "3", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}
```

Si el formato de datos de entrada es un documento por archivo, el archivo de salida contiene una línea para cada documento. Cada línea tiene el nombre del archivo y la clase o clases que se encuentran en el documento. Esto termina con la confianza de que Amazon Comprehend clasificó la instancia individual con precisión.

Por ejemplo:

```
{"File": "file0.txt", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]}
{"File": "file2.txt", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Domentary", "Score": 0.0372}]}
{"File": "file3.txt", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}
```

**Salida multietiqueta**

Cuando se utiliza un clasificador entrenado en modo multietiqueta, sus resultados muestran `labels`. Cada una de estas `labels` es la etiqueta que se utiliza para crear el conjunto de categorías al entrenar al clasificador.

En los ejemplos siguientes se utilizan estas etiquetas únicas.

```
SCIENCE_FICTION
ACTION
DRAMA
COMEDY
ROMANCE
```

Si el formato de datos de entrada es un documento por línea, el archivo de salida contiene una línea por cada línea de la entrada. Cada línea incluye el nombre del archivo, el número de línea basado en cero de la línea de entrada y la clase o clases que se encuentran en el documento. Esto termina con la confianza de que Amazon Comprehend clasificó correctamente la instancia individual.

Por ejemplo:

```
{"File": "file1.txt", "Line": "0", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "1", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "2", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "3", "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}
```

Si el formato de datos de entrada es un documento por archivo, el archivo de salida contiene una línea para cada documento. Cada línea tiene el nombre del archivo y la clase o clases que se encuentran en el documento. Esto termina con la confianza de que Amazon Comprehend clasificó la instancia individual con precisión.

Por ejemplo:

```
{"File": "file0.txt", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]}
{"File": "file1.txt", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]}
{"File": "file2.txt", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]}
{"File": "file3.txt”, "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}
```

## Salidas para documentos de entrada semiestructurados
<a name="outputs-class-async-other"></a>

En el caso de los documentos de entrada semiestructurados, la salida puede incluir los siguientes campos adicionales:
+ DocumentMetadata — Información de extracción sobre el documento. Los metadatos incluyen una lista de páginas del documento, con el número de caracteres extraídos de cada página. Este campo está presente en la respuesta si la solicitud incluía el parámetro `Byte`.
+ DocumentType — El tipo de documento para cada página del documento de entrada. Este campo está presente en la respuesta si la solicitud incluía el parámetro `Byte`.
+ Errores: errores a nivel de la página que el sistema detectó al procesar el documento de entrada. El campo está vacío si el sistema no ha detectado ningún error.

Para obtener más información sobre estos campos de salida, consulte la referencia [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)de la *API de Amazon Comprehend*.

El siguiente ejemplo muestra el resultado de un archivo PDF de dos páginas escaneado.

```
[{ #First page output
    "Classes": [
        {
            "Name": "__label__2 ",
            "Score": 0.9993996620178223
        },
        {
            "Name": "__label__3 ",
            "Score": 0.0004330444789957255
        }
    ],
    "DocumentMetadata": {
        "PageNumber": 1,
        "Pages": 2
    },
    "DocumentType": "ScannedPDF",
    "File": "file.pdf",
    "Version": "VERSION_NUMBER"
},
#Second page output
{
    "Classes": [
        {
            "Name": "__label__2 ",
            "Score": 0.9993996620178223
        },
        {
            "Name": "__label__3 ",
            "Score": 0.0004330444789957255
        }
    ],
    "DocumentMetadata": {
        "PageNumber": 2,
        "Pages": 2
    },
    "DocumentType": "ScannedPDF",
    "File": "file.pdf",
    "Version": "VERSION_NUMBER" 
}]
```