

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Optionen für die Textextraktion festlegen
<a name="idp-set-textract-options"></a>

 Standardmäßig führt Amazon Comprehend die folgenden Aktionen aus, um Text aus einer Datei zu extrahieren, basierend auf dem Eingabedateityp: 
+ **Word-Dateien** — Der Amazon Comprehend Parser extrahiert den Text. 
+ **Digitale PDF-Dateien** — Der Amazon Comprehend Parser extrahiert den Text. 
+ **Bilddateien und gescannte PDF-Dateien** — Amazon Comprehend verwendet die Amazon Textract `DetectDocumentText` Textract-API, um den Text zu extrahieren. 

Für Bilddateien und PDF-Dateien können Sie den `DocumentReaderConfig` Parameter verwenden, um diese Standard-Extraktionsaktionen zu überschreiben. Dieser Parameter ist verfügbar, wenn Sie die Amazon Comprehend Comprehend-Konsole oder API für Echtzeit- oder asynchrone benutzerdefinierte Analysen verwenden.

Der `DocumentReaderConfig` Parameter enthält drei Felder:
+ **DocumentReadMode**— Auf einstellen, `SERVICE_DEFAULT` damit Amazon Comprehend die Standardaktionen ausführt. 

  Stellen Sie diese `FORCE_DOCUMENT_READ_ACTION` Option ein, um Amazon Textract zum Analysieren digitaler PDF-Dateien zu verwenden.
+ **DocumentReadAction**— Legt die Amazon Textract-API (DetectDocumentText oder AnalyzeDocument) fest, die verwendet werden soll, wenn Amazon Comprehend Amazon Textract für die Textextraktion verwendet.
+ **FeatureTypes**— Wenn Sie die AnalyzeDocument API-Operation verwenden **DocumentReadAction**möchten, können Sie eines oder beide `FeatureTypes` (TABELLEN, FORMULARE) hinzufügen. Diese Funktionen bieten zusätzliche Informationen zu den Tabellen und Formularen im Dokument. Weitere Informationen zu diesen Funktionen finden Sie unter [Amazon Textract Document Analysis Response Objects](https://docs.aws.amazon.com/textract/latest/dg/how-it-works-document-layout.html).

Die folgenden Beispiele zeigen, wie die Konfiguration `DocumentReaderConfig` für bestimmte Anwendungsfälle erfolgt:

1. Verwenden Sie Amazon Textract für alle PDF-Dateien. 

   1. **DocumentReadMode** – Eingestellt auf `FORCE_DOCUMENT_READ_ACTION`.

   1. **DocumentReadAction** – Eingestellt auf `TEXTRACT_DETECT_DOCUMENT_TEXT`.

   1. **FeatureTypes**— Nicht erforderlich.

1. Verwenden Sie die Amazon Textract `AnalyzeDocument` Textract-API für alle PDF- und Bilddateien. 

   1. **DocumentReadMode** – Eingestellt auf `FORCE_DOCUMENT_READ_ACTION`.

   1. **DocumentReadAction** – Eingestellt auf `TEXTRACT_ANALYZE_DOCUMENT`.

   1. **FeatureTypes**— Auf `FORMS` oder beide Funktionen eingestellt. `TABLES`

1. Verwenden Sie die Amazon Textract `AnalyzeDocument` Textract-API für gescannte PDF-Dateien und alle Bilddateien. 

   1. **DocumentReadMode** – Eingestellt auf `SERVICE_DEFAULT`.

   1. **DocumentReadAction** – Eingestellt auf `TEXTRACT_ANALYZE_DOCUMENT`.

   1. **FeatureTypes**— Auf `FORMS` oder beide Funktionen eingestellt. `TABLES`

Weitere Informationen zu den Amazon Textract Textract-Optionen finden Sie unter [DocumentReaderConfig](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DocumentReaderConfig.html).