

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Configurar opções de extração de texto
<a name="idp-set-textract-options"></a>

 Por padrão, o Amazon Comprehend executa as seguintes ações para extrair texto de um arquivo, com base no tipo de arquivo de entrada: 
+ **Arquivos do Word**: o analisador do Amazon Comprehend extrai o texto. 
+ **Arquivos em PDF digitais**: o analisador do Amazon Comprehend extrai o texto. 
+ **Arquivos de imagem e em PDF digitalizados**: O Amazon Comprehend usa a API do Amazon Textract `DetectDocumentText` para extrair o texto. 

Para arquivos de imagem e arquivos em PDF, você pode usar o parâmetro `DocumentReaderConfig` para substituir essas ações padrão de extração. Esse parâmetro está disponível quando você usa o console ou a API do Amazon Comprehend para análises personalizadas assíncronas ou em tempo real.

O parâmetro `DocumentReaderConfig` contém três campos:
+ **DocumentReadMode**— Defina como `SERVICE_DEFAULT` para que o Amazon Comprehend execute as ações padrão. 

  Define `FORCE_DOCUMENT_READ_ACTION` para usar o Amazon Textract para analisar arquivos em PDF digitais.
+ **DocumentReadAction**— Define a API Amazon Textract (DetectDocumentText ou AnalyzeDocument) para usar quando o Amazon Comprehend usa o Amazon Textract para extração de texto.
+ **FeatureTypes**— Se você **DocumentReadAction**definir o uso da operação de AnalyzeDocument API, poderá adicionar uma ou ambas `FeatureTypes` (TABELAS, FORMULÁRIOS). Esses recursos fornecem informações adicionais sobre as tabelas e formulários no documento. Para obter mais informações sobre esses recursos, consulte [Objetos de resposta da análise de documentos do Amazon Textract](https://docs.aws.amazon.com/textract/latest/dg/how-it-works-document-layout.html).

Os exemplos a seguir mostram como configurar `DocumentReaderConfig` para casos de uso específico:

1. Use o Amazon Textract para todos os arquivos em PDF. 

   1. **DocumentReadMode**: defina como `FORCE_DOCUMENT_READ_ACTION`.

   1. **DocumentReadAction**: defina como `TEXTRACT_DETECT_DOCUMENT_TEXT`.

   1. **FeatureTypes**— Não é necessário.

1. Use a API `AnalyzeDocument` do Amazon Textract para todos os arquivos em PDF e de imagem. 

   1. **DocumentReadMode**: defina como `FORCE_DOCUMENT_READ_ACTION`.

   1. **DocumentReadAction**: defina como `TEXTRACT_ANALYZE_DOCUMENT`.

   1. **FeatureTypes**— Defina `TABLES` como `FORMS` ou ambos os recursos.

1. Use a API `AnalyzeDocument` do Amazon Textract para arquivos em PDF digitalizados e todos os arquivos de imagem. 

   1. **DocumentReadMode**: defina como `SERVICE_DEFAULT`.

   1. **DocumentReadAction**: defina como `TEXTRACT_ANALYZE_DOCUMENT`.

   1. **FeatureTypes**— Defina `TABLES` como `FORMS` ou ambos os recursos.

Para obter mais informações sobre as opções do Amazon Textract, consulte. [DocumentReaderConfig](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DocumentReaderConfig.html)