

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 非同步自訂分析的輸入
<a name="idp-inputs-async"></a>

您可以將多個文件輸入自訂非同步分析任務。下列主題說明您可以使用的輸入文件類型。檔案大小上限會根據輸入文件的類型而有所不同。

**Topics**
+ [純文字文件](#idp-inputs-async-text)
+ [半結構化文件](#idp-inputs-async-semi)
+ [影像檔案和掃描的 PDF 檔案](#idp-inputs-async-ocr)
+ [Amazon Textract 輸出 JSON 檔案](#idp-inputs-async-textract)

## 純文字文件
<a name="idp-inputs-async-text"></a>

以 UTF-8-formatted文字提供所有純文字輸入文件。下表列出檔案大小上限和其他準則。

**注意**  
當**所有**輸入檔案都是純文字時，這些限制適用。


| Description | Quota/Guideline | 
| --- | --- | 
| 每個檔案格式一個文件的檔案大小上限 （自訂分類） | 1 位元組–10 MB | 
| 文件大小 （自訂實體辨識） | 1 位元組–1 MB | 
| 檔案數量上限，每個檔案一份文件 | 1,000,000 | 
| 行數上限，每行一個文件 （針對請求中的所有檔案） | 1,000,000 | 
| 文件 corpus 大小 （合併純文字中的所有文件） | 1 位元組–5 GB | 

## 半結構化文件
<a name="idp-inputs-async-semi"></a>

半結構化文件包括原生 PDF 文件和 Word 文件。

下表列出檔案大小上限和其他準則。


| Description | Quota/Guideline | 
| --- | --- | 
| 文件大小 (PDF) | 1 位元組–50 MB | 
| 文件大小 (Docx) | 1 位元組–5 MB | 
| 檔案數量上限 | 500 | 
| PDF 或 Docx 檔案的頁面數上限 | 100 | 
| 文字擷取後的文件 corpus 大小 （純文字，所有檔案合併） | 1 位元組–5 GB | 

根據預設，自訂分析會使用 Amazon Comprehend 剖析器，從 Word 檔案和數位 PDF 檔案擷取文字。對於 PDF 檔案，您可以覆寫此預設值，並使用 Amazon Textract 擷取文字。請參閱 [設定文字擷取選項](idp-set-textract-options.md)。

## 影像檔案和掃描的 PDF 檔案
<a name="idp-inputs-async-ocr"></a>

自訂分析支援 JPEG、PNG 和 TIFF 影像。

下表列出映像的檔案大小上限。掃描的 PDF 檔案的大小上限與原生 PDF 檔案相同。


| Description | Quota/Guideline | 
| --- | --- | 
| 影像大小 (JPG 或 PNG) | 1 位元組–10 MB | 
| 影像大小 (TIFF) | 1 位元組–10 MB。最多一個頁面。 | 

如需映像的詳細資訊，請參閱 [映像的最佳實務](idp-images-bp.md)。

根據預設，Amazon Comprehend 會使用 Amazon Textract `DetectDocumentText` API 操作，從影像檔案和掃描的 PDF 檔案擷取文字。您可以覆寫此預設值，改為使用 `AnalyzeDocument` API 操作。請參閱 [設定文字擷取選項](idp-set-textract-options.md)。

## Amazon Textract 輸出 JSON 檔案
<a name="idp-inputs-async-textract"></a>

對於自訂實體辨識，但不是自訂分類，您可以提供來自 Amazon Textract `AnalyzeDocument` API 操作的輸出檔案作為分析任務的輸入。