

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 实时自定义分析的输入
<a name="idp-inputs-sync"></a>

Real-time 使用自定义模型进行分析将单个文档作为输入。以下主题描述了您可以使用的输入文档类型。

**Topics**
+ [纯文本文档](#idp-inputs-sync-text)
+ [Semi-structured  文档](#idp-inputs-sync-semi)
+ [图像文件和扫描的 PDF 文件](#idp-inputs-sync-ocr)
+ [Amazon Textract 输出](#idp-inputs-sync-textract)
+ [用于实时分析的最大文档大小](#idp-inputs-sync-sizes)
+ [半结构化文档中的错误](#idp-inputs-sync-err)

## 纯文本文档
<a name="idp-inputs-sync-text"></a>

以 UTF-8-formatted 文本形式提供输入文档。

## Semi-structured  文档
<a name="idp-inputs-sync-semi"></a>

Semi-structured 文档包括原生 PDF 文档和 Word 文档。

默认情况下，实时自定义分析使用 Amazon Comprehend 解析器从 Word 文件和数字 PDF 文件中提取文本。对于 PDF 文件，您可以覆盖此默认设置，然后使用 Amazon Textract 提取文本。请参阅[设置文本提取选项](idp-set-textract-options.md)。

## 图像文件和扫描的 PDF 文件
<a name="idp-inputs-sync-ocr"></a>

支持的图像类型包括 JPEG、PNG 和 TIFF。

默认情况下，自定义实体识别使用 Amazon Textract `DetectDocumentText` API 操作从图像文件和扫描的 PDF 文件中提取文本。您可以覆盖此默认值以改用 `AnalyzeDocument` API 操作。请参阅[设置文本提取选项](idp-set-textract-options.md)。

## Amazon Textract 输出
<a name="idp-inputs-sync-textract"></a>

您可以提供 Amazon Textract `DetectDocumentText` API 或 `AnalyzeDocument` API 的 JSON 输出作为实时 API 操作的输入，用于自定义分类和自定义实体识别。Amazon Comprehend 支持实时 API 操作的这种输入类型，但不支持控制台。

## 用于实时分析的最大文档大小
<a name="idp-inputs-sync-sizes"></a>

对于所有输入文档类型，输入文件的最大值为一页，不超过 10000 个字符。

下表显示输入文档的最大文件大小。


| 文件类型 | 最大大小 (API) | 最大大小（控制台） | 
| --- | --- | --- | 
| UTF-8 文本文档 | 10 KB | 10 KB | 
| PDF 文档 | 10 MB | 5 MB | 
| Word 文档 | 10 MB | 1 MB | 
| 图像文件 | 10 MB | 5 MB | 
| Textract 输出文件 | 1 MB | n/a | 

## 半结构化文档中的错误
<a name="idp-inputs-sync-err"></a>

 从半结构化文档[ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)或图像文件中提取文本时，或 [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html)API 操作可能会遇到文档级或页面级错误。

### Page-level 错误
<a name="idp-inputs-sync-page-err"></a>

 如果[ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)或 [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html)API 操作在处理输入文档中的页面时遇到错误，则 API 响应会在[错误列表中为每个错误添加](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ErrorsListItem.html)一个条目。

错误列表条目中的 `ErrorCode` 包含以下值之一：
+ TEXTRACT\_BAD\_PAGE：Amazon Textract 无法读取该页面。有关 Amazon Textract 页面限制的更多信息，请参阅 [Amazon Textract 中的页面配额](https://docs.aws.amazon.com/textract/latest/dg/limits-document.html)。
+ TEXTRACT\_PROVISIONED\_THROUGHPUT\_EXCEEDED：请求数量超过了您的吞吐量限制。有关 Amazon Textract 吞吐量配额的更多信息，请参阅 [Amazon Textract 中的默认配额](https://docs.aws.amazon.com/textract/latest/dg/limits-quotas-explained.html)。
+ PAGE\_CHARACTERS\_EXCEEDED：页面上的文本字符太多（最多 10000 个字符）。
+ PAGE\_SIZE\_EXCEEDED：最大页面大小为 10 MB。
+ INTERNAL\_SERVER\_ERROR：请求遇到了服务问题。请重试 API 请求。

### Document-level 错误
<a name="idp-inputs-sync-doc-err"></a>

如果[ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)或 [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html)API 操作在您的输入文档中检测到文档级错误，则 API 会返回`InvalidRequestException`错误响应。

在错误响应中，**Reason** 字段包含值 `INVALID_DOCUMENT`。

**Detail** 字段包含以下值之一：
+ DOCUMENT\_SIZE\_EXCEEDED：文档大小太大。检查您的文件大小并重新提交请求。
+ UNSUPPORTED\_DOC\_TYPE：不支持文档类型。检查文件类型并重新提交请求。
+ PAGE\_LIMIT\_EXCEEDED：文档中的页数太多。检查文件中的页数并重新提交请求。
+ TEXTRACT\_ACCESS\_DENIED\_EXCEPTION：拒绝访问 Amazon Textract。验证您的账户是否有权使用 Amazon Textract [DetectDocumentText](https://docs.aws.amazon.com/textract/latest/dg/API_DetectDocumentText.html)和 [AnalyzeDocument](https://docs.aws.amazon.com/textract/latest/dg/API_AnalyzeDocument.html)API 操作，然后重新提交申请。