

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Amazon Textract 的最佳实践
<a name="textract-best-practices"></a>

Amazon Textract 使用机器学习来像个人一样阅读文档。它从文档中提取文本、表格和表单。使用以下最佳实践从文档中获取最佳结果。

## 提供最佳输入文档
<a name="optimal-document"></a>

以下列出了可以优化输入文档以获得更好结果的几种方法。
+ 确保您的文档文本使用 Amazon Textract 支持的语言。目前，Amazon Textract 支持英语、西班牙语、德语、意大利语、法语和葡萄牙语。
+ 提供高质量的图像，理想情况下至少为 150 DPI。
+ 如果您的文档已采用 Amazon Textract 支持的其中一种文件格式（PDF、TIFF、JPEG 和 PNG），请勿在将文档上传到 Amazon Textract 之前对文档进行转换或降样。

为了在从文档中的表格中提取文本时获得最佳效果，请确保：
+ 文档中的表格在视觉上与页面上的周围元素分开。例如，表格不会叠加到图像或复杂模式上。
+ 表格中的文字是直立的。例如，文本不会相对于页面上的其他文本进行旋转。

从表中提取文本时，在以下情况下可能会看到不一致的结果：
+ 合并的跨越多列的表格单元格。
+ 单元格、行或列与同一表的其他部分不同的表格。

我们建议使用[文本检测](how-it-works-detecting.md)作为解决方法。

## 使用置信度得分
<a name="confidence-score"></a>

您应该考虑 Amazon Textract API 操作返回的信心分数及其使用案例的敏感性。置信度得分是一个介于 0 与 100 之间的数字，用于表示给定预测的准确性。它可以帮助你就如何使用结果做出明智的决定。

在对检测错误（误报）敏感的应用程序中，强制实施最低置信度评分阈值。申请应放弃低于该阈值的结果，或者将情况标记为需要更高级别的人工审查。

最佳阈值取决于应用程序。出于存档目的，例如记录手写笔记，可能低至 50％。涉及财务决策的业务流程可能需要 90％ 或更高的阈值。

## 考虑使用人工审核
<a name="review"></a>

还可以考虑将人工评论纳入工作流程中。这对于敏感的应用程序尤其重要，例如涉及财务决策的业务流程。