設定文字擷取選項

根據預設，Amazon Comprehend 會根據輸入檔案類型，執行下列動作從檔案擷取文字：

Word 檔案 – Amazon Comprehend 剖析器會擷取文字。
數位 PDF 檔案 – Amazon Comprehend 剖析器會擷取文字。
影像檔案和掃描的 PDF 檔案 – Amazon Comprehend 使用 Amazon Textract DetectDocumentText API 擷取文字。

對於映像檔案和 PDF 檔案，您可以使用 DocumentReaderConfig 參數來覆寫這些預設擷取動作。當您使用 Amazon Comprehend 主控台或 API 進行即時或非同步自訂分析時，即可使用此參數。

DocumentReaderConfig 參數包含三個欄位：

DocumentReadMode – 設定為，SERVICE_DEFAULT讓 Amazon Comprehend 執行預設動作。

設定為 FORCE_DOCUMENT_READ_ACTION以使用 Amazon Textract 剖析數位 PDF 檔案。
DocumentReadAction – 設定當 Amazon Comprehend 使用 Amazon Textract 擷取文字時要使用的 Amazon Textract API (DetectDocumentText 或 AnalyzeDocument)。
FeatureTypes – 如果您將 DocumentReadAction 設定為使用 AnalyzeDocument API 操作，您可以新增一個或兩個 FeatureTypes(TABLES、FORMS)。這些功能提供文件中資料表和表單的其他資訊。如需這些功能的詳細資訊，請參閱 Amazon Textract 文件分析回應物件。

下列範例示範如何DocumentReaderConfig針對特定使用案例設定：

針對所有 PDF 檔案使用 Amazon Textract。
1. DocumentReadMode – 設定為 FORCE_DOCUMENT_READ_ACTION。
2. DocumentReadAction – 設定為 TEXTRACT_DETECT_DOCUMENT_TEXT。
3. FeatureTypes – 非必要。
針對所有 PDF 和映像檔案使用 Amazon Textract AnalyzeDocument API。
1. DocumentReadMode – 設定為 FORCE_DOCUMENT_READ_ACTION。
2. DocumentReadAction – 設定為 TEXTRACT_ANALYZE_DOCUMENT。
3. FeatureTypes – 設定為 TABLES，FORMS或同時設定為兩項功能。
使用 Amazon Textract AnalyzeDocument API 掃描 PDF 檔案和所有映像檔案。
1. DocumentReadMode – 設定為 SERVICE_DEFAULT。
2. DocumentReadAction – 設定為 TEXTRACT_ANALYZE_DOCUMENT。
3. FeatureTypes – 設定為 TABLES，FORMS或同時設定為兩個功能。

如需 Amazon Textract 選項的詳細資訊，請參閱 DocumentReaderConfig。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

非同步分析的輸入

映像的最佳實務