

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon Textract 的最佳實務
<a name="textract-best-practices"></a>

Amazon Textract 使用機器學習來閲讀文檔，就像個人一樣。它從文檔中提取文本、表格和表單。使用下列最佳實務，以取得文檔的最佳結果。

## 提供最佳輸入文檔
<a name="optimal-document"></a>

以下是優化輸入文檔以獲得更好結果的幾種方法的列表。
+ 確保您的文檔文本使用 Amazon Textract 支持的語言。目前，Amazon Textract 支援英文、西班牙文、德文、義大利文、法文和葡萄牙文。
+ 提供高質量的圖像，理想情況下至少為 150 DPI。
+ 如果您的文檔已採用 Amazon Textract 支持的文件格式之一（PDF、TIFF、JPEG 和 PNG），請不要在將文檔上傳到 Amazon Textract 之前對文檔進行轉換或縮小樣本。

為了在從文檔中的表中提取文本時獲得最佳結果，請確保：
+ 文檔中的表格在視覺上與頁面上的周圍元素分離。例如，表格不會疊加到圖像或複雜圖案上。
+ 表格中的文本是直立的。例如，文本不會相對於頁面上的其他文本進行旋轉。

從表中提取文本時，在以下情況下可能會看到不一致的結果：
+ 跨多個列的合併表格單元格。
+ 具有與同一表格的其他部分不同的單元格、行或列的表。

建議您使用[文字偵測](how-it-works-detecting.md)作為解決方法。

## 使用可信度分數
<a name="confidence-score"></a>

您應該考慮 Amazon Textract API 操作返回的置信度分數及其使用案例的敏感性。可信度分數是介於 0 到 100 之間的數字，表示給定預測正確性的概率。它可以幫助您就如何使用結果做出明智的決策。

在對檢測錯誤（誤報）敏感的應用程序中，強制執行最小置信度閾值。應用程序應該放棄低於該閾值的結果，或者將需要更高級別的人工審查的情況標記為情況。

最佳閾值取決於應用程式。對於存檔目的，例如記錄手寫筆記，它可能低至 50%。涉及財務決策的業務流程可能需要 90% 或更高的閾值。

## 考慮使用人工檢索
<a name="review"></a>

還可以考慮將人工審核納入工作流程。這對敏感應用程序尤其重要，例如涉及財務決策的業務流程。