Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Impostazione delle opzioni di estrazione del testo
Per impostazione predefinita, Amazon Comprehend esegue le seguenti azioni per estrarre testo da un file, in base al tipo di file di input:
File Word: il parser Amazon Comprehend estrae il testo.
File PDF digitali: il parser Amazon Comprehend estrae il testo.
File di immagine e file PDF scansionati: Amazon Comprehend utilizza l'API Amazon Textract per
DetectDocumentTextestrarre il testo.
Per i file di immagine e i file PDF, puoi utilizzare il DocumentReaderConfig parametro per sovrascrivere queste azioni di estrazione predefinite. Questo parametro è disponibile quando utilizzi la console o l'API Amazon Comprehend per analisi personalizzate in tempo reale o asincrone.
Il DocumentReaderConfig parametro contiene tre campi:
-
DocumentReadMode— Impostato
SERVICE_DEFAULTper consentire ad Amazon Comprehend di eseguire le azioni predefinite.Imposta
FORCE_DOCUMENT_READ_ACTIONper utilizzare Amazon Textract per analizzare file PDF digitali. -
DocumentReadAction— Imposta l'API Amazon Textract (DetectDocumentText o AnalyzeDocument) da utilizzare quando Amazon Comprehend utilizza Amazon Textract per l'estrazione del testo.
FeatureTypes— Se decidi DocumentReadActiondi utilizzare l'operazione AnalyzeDocument API, puoi aggiungere una o entrambe le
FeatureTypes(TABLES, FORMS). Queste funzionalità forniscono informazioni aggiuntive sulle tabelle e sui moduli del documento. Per ulteriori informazioni su queste funzionalità, consulta Amazon Textract Document Analysis Response Objects.
I seguenti esempi mostrano come configurare DocumentReaderConfig per casi d'uso specifici:
Usa Amazon Textract per tutti i file PDF.
-
DocumentReadMode: impostato su
FORCE_DOCUMENT_READ_ACTION. -
DocumentReadAction: impostato su
TEXTRACT_DETECT_DOCUMENT_TEXT. -
FeatureTypes— Non richiesto.
-
Usa l'
AnalyzeDocumentAPI Amazon Textract per tutti i file PDF e di immagine.-
DocumentReadMode: impostato su
FORCE_DOCUMENT_READ_ACTION. -
DocumentReadAction: impostato su
TEXTRACT_ANALYZE_DOCUMENT. -
FeatureTypes— Impostato su
TABLESFORMSo entrambe le funzionalità.
-
Usa l'
AnalyzeDocumentAPI Amazon Textract per i file PDF scansionati e tutti i file di immagine.-
DocumentReadMode: impostato su
SERVICE_DEFAULT. -
DocumentReadAction: impostato su
TEXTRACT_ANALYZE_DOCUMENT. -
FeatureTypes— Impostato su
FORMSo entrambeTABLESle funzionalità.
-
Per ulteriori informazioni sulle opzioni di Amazon Textract, consulta. DocumentReaderConfig