

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 文档处理
<a name="idp"></a>

Amazon Comprehend 支持一步完成自定义分类和自定义实体识别的文档处理。例如，您可以将纯文本文档和半结构化文档（例如 PDF 文档、Microsoft Word 文档和图像）混合输入到自定义分析任务中。

对于需要提取文本的输入文件，Amazon Comprehend 会在运行分析之前自动执行文本提取。为了提取文本内容，Amazon Comprehend 使用内部解析器来处理原生半结构化文档，并使用 Amazon Textract API 来处理图像和扫描文档。

Amazon Comprehend 文档处理功能适用于每个亚马逊 Comprehend[支持的区域：](guidelines-and-limits.md#limits-regions)，但亚太地区（东京 AWS GovCloud ）除外，（）仅支持纯文本模型进行自定义分类。US-West

以下主题详细介绍了 Amazon Comprehend 支持进行自定义分析的输入文档类型。

**Topics**
+ [实时自定义分析的输入](idp-inputs-sync.md)
+ [异步自定义分析的输入](idp-inputs-async.md)
+ [设置文本提取选项](idp-set-textract-options.md)
+ [图像的最佳实践](idp-images-bp.md)