

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在精確度和取回率之間進行選擇
<a name="machine-learning-precision-recall-tradeoff"></a>

每個 `FindMatches` 轉換都包含了 `precision-recall` 參數。您可以使用此參數來指定以下其中一個項目：
+ 若您更擔心轉換在兩筆記錄實際上不相符時錯誤地報告成相符，建議您強調「精確度」**。
+ 如果您更擔心轉換無法偵測到相符的記錄，建議您強調「取回率」**。

您可以在 AWS Glue 主控台上進行這項取捨，或是使用 AWS Glue 機器學習 API 操作。

**何時應著重在精確度**  
若您更擔心 `FindMatches` 在兩筆記錄不相符報告成相符的風險，建議您著重在精確度。若要著重在精確度，請選擇「較高」**的精確度取回率取捨值。使用更高的值，`FindMatches` 轉換便需要更多證據來判斷兩筆記錄是否相符。轉換會調校成較傾向於將記錄視為不相符。

例如，假設您正在使用 `FindMatches` 偵測影片目錄中的重複項，並且您為轉換提供了較高的精確度取回率值。若您的轉換不正確地將「星際大戰四部曲：曙光乍現」**視為與「星際大戰：帝國反擊戰」**相同，想要「星際大戰四部曲：曙光乍現」**的客戶便可能會看到「星際大戰：帝國反擊戰」**。這會是不佳的客戶體驗。

但是，若轉換無法偵測到「星際大戰四部曲：曙光乍現」**與「星際大戰：四部曲 ‒ 曙光乍現」**相同，客戶一開始可能會感到困惑，但最後還是會了解到他們是相同的項目。這會是一項錯誤，但不會像先前的案例那樣不佳。

**何時應著重在取回率**  
若您更擔心 `FindMatches` 轉換可能無法偵測到兩筆記錄實際上是相符項目的風險，建議您著重在取回率。若要著重在取回率，請選擇「較低」**的精確度取回率取捨值。使用較低的值，`FindMatches` 轉換便需要較少證據來判斷兩筆記錄是否相符。轉換會調校成較傾向於將記錄視為相符。

例如，這可能會是安全組織的優先事項。假設您正在將客戶與已知詐騙犯的清單進行比對，此時判斷客戶是否為詐騙犯便非常重要。您正在使用 `FindMatches` 將詐騙犯清單和客戶清單進行比對。每次 `FindMatches` 在兩個清單間找到相符項目，便會指派一名稽核人員來驗證該客戶是否確實是詐騙犯。相較於精確度，您的組織可能會偏好選擇取回率。換句話說，您會寧願讓稽核人員手動檢閱並拒絕客戶並非詐騙犯時的一些案例，也不願意在識別確實位於詐騙犯清單上的客戶時失敗。

**如何同時著重精確度和取回率**  
同時改善精確度和取回率的最佳方式是標記更多資料。隨著您標記更多資料，`FindMatches` 轉換的整體正確性便會獲得改善，進而同時改善精確度和取回率。但是，即使是使用最正確的轉換，仍然還是會有您必須實驗著重精確度或取回率，或是在這兩者之間選擇一個值的灰色地帶。