本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 对文档数据进行预测
<a name="canvas-ready-to-use-predict-document"></a>

以下过程介绍如何对文档数据集进行单一预测和批量预测。每个 Ready-to-use模型都支持您的数据集的**单一预测****和批量预测**。**单一预测**是指您只需进行一次预测。例如，您有一张图像要从中提取文本，或者有一段文本要检测其主要语言。**批量预测**是指您想对整个数据集进行预测。例如，您可能有一个包含客户评论的 CSV 文件，您想分析其中的客户情绪，或者您可能有想要在其中检测对象的图像文件。

您可以将这些过程用于以下 Ready-to-use模型类型：费用分析、身份证件分析和文档分析。

**注意**  
对于文档查询，目前仅支持单一预测。

## 单一预测
<a name="canvas-ready-to-use-predict-document-single"></a>

要对接受文档数据的 Ready-to-use模型进行单一预测，请执行以下操作：

1. 在 Canvas 应用程序的左侧导航窗格中，选择 **R eady-to-use 模型**。

1. 在**Ready-to-use 模型**页面上，为您的用例选择 Ready-to-use模型。对于文档数据，应该是以下模型之一：**费用分析**、**身份证件分析**或**文档分析**。

1. 在所选 Ready-to-use模型的**运行预测**页面上，选择**单一预测**。

1. 如果您的 Ready-to-use模型是身份证件分析或文档分析，请完成以下操作。如果您正在进行费用分析或文档查询，请跳过此步骤，分别转到步骤 5 或步骤 6。

   1. 选择**上传文档**。

   1. 系统会提示您从本地计算机上传 PDF、JPG 或 PNG 文件。从本地文件中选择文档，然后将生成预测结果。

1. 如果您的 Ready-to-use模型是支出分析，请执行以下操作：

   1. 选择**上传发票或收据**。

   1. 系统会提示您从本地计算机上传 PDF、JPG、PNG 或 TIFF 文件。从本地文件中选择文档，然后将生成预测结果。

1. 如果您的 Ready-to-use模型是文档查询，请执行以下操作：

   1. 选择**上传文档**。

   1. 系统会提示您从本地计算机上传 PDF 文件。从本地文件中选择文档。PDF 文件长度必须为 1-100 页。
**注意**  
如果您位于亚太地区（首尔）、亚太地区（新加坡）、亚太地区（悉尼）或欧洲地区（法兰克福）这样的区域，则用于文档查询的最大 PDF 大小为 20 页。

   1. 在右侧窗格中，输入查询以搜索文档中的信息。单个查询中可以包含的字符数介于 1 到 200 之间。您一次最多可以添加 15 个查询。

   1. 选择**提交查询**，然后生成包含查询答案的结果。您每次提交查询都需要支付一次费用。

在右侧窗格的**预测结果**中，您将收到对文档的分析。

以下信息描述了每种解决方案的结果：
+ 对于费用分析，将结果分为**汇总字段**（包括收据上的总额等字段）和**行项目字段**（包括收据上的单个项目等字段）。已识别的字段会在输出的文档图像上突出显示。
+ 对于身份证件分析，输出会显示 Ready-to-use模型识别的字段，例如名字和姓氏、地址或出生日期。已识别的字段会在输出的文档图像上突出显示。
+ 对于文档分析，将结果分为**原始文本**、**表单**、**表格**和**签名**。**原始文本**包括所有提取的文本，而**表单**、**表格**和**签名**仅包含属于这些类别的表单信息。例如，**表格**仅包含从文档中的表格中提取的信息。已识别的字段会在输出的文档图像上突出显示。
+ 对于文档查询，Canvas 会返回每个查询的答案。您可以打开可折叠的查询下拉列表来查看结果以及预测的置信度分数。如果 Canvas 在文档中找到多个答案，则每个查询可能有多个结果。

以下屏幕截图显示了使用文档分析解决方案进行单一预测的结果。

![使用文档分析 Ready-to-use模型进行单一预测的结果屏幕截图。](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/canvas-ready-to-use/ai-solutions-document-analysis.png)


## 批量预测
<a name="canvas-ready-to-use-predict-document-batch"></a>

要对接受文档数据的 Ready-to-use模型进行批量预测，请执行以下操作：

1. 在 Canvas 应用程序的左侧导航窗格中，选择 **R eady-to-use 模型**。

1. 在**Ready-to-use 模型**页面上，为您的用例选择 Ready-to-use模型。对于图像数据，应该是以下模型之一：**费用分析**、**身份证件分析**或**文档分析**。

1. 在所选 Ready-to-use模型的 “**运行预测**” 页面上，选择 **Batch 预测**。

1. 如果您已经导入了数据集，请选定**选择数据集**。如果未导入，请选择**导入新数据集**，然后将引导您完成导入数据工作流。

1. 从可用数据集列表中，选择您的数据集并选择**生成预测**。如果您的使用案例是文档分析，请继续执行步骤 6。

1. （可选）如果您的使用案例是文档分析，则会出现另一个名为**选择要包含在批量预测中的特征**的对话框。您可以选择**表单**、**表格**和**签名**，按这些特征对结果进行分组。然后，选择**生成预测**。

预测作业运行完毕后，在**运行预测**页面上，您会看到**预测**下列出了输出数据集。此数据集包含您的结果，如果您选择**更多选项**图标 (![](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png))，则可以选择**查看预测结果**来预览文档数据的分析。

以下信息描述了每种解决方案的结果：
+ 对于费用分析，将结果分为**汇总字段**（包括收据上的总额等字段）和**行项目字段**（包括收据上的单个项目等字段）。已识别的字段会在输出的文档图像上突出显示。
+ 对于身份证件分析，输出会显示 Ready-to-use模型识别的字段，例如名字和姓氏、地址或出生日期。已识别的字段会在输出的文档图像上突出显示。
+ 对于文档分析，将结果分为**原始文本**、**表单**、**表格**和**签名**。**原始文本**包括所有提取的文本，而**表单**、**表格**和**签名**仅包含属于这些类别的表单信息。例如，**表格**仅包含从文档中的表格中提取的信息。已识别的字段会在输出的文档图像上突出显示。

预览结果后，您可以选择**下载预测**并将结果下载为 ZIP 文件。