

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用相符項目可信度分數估計相符項目的品質
<a name="match-scoring"></a>

相符項目可信度分數提供 FindMatches 所找到之相符項目的品質估計，以區分機器學習模型中具有高度自信、不確定或不太可能的相符記錄。相符項目可信度分數介於 0 到 1 之間，其中分數越高，表示相似度越高。檢查相符項目可信度分數可讓您區分系統高度可信 (您可能會決定合併) 的相符項目叢集、系統不確定的叢集 (您可能會決定安排人工檢閱)，以及系統認為不太可能的叢集 (可能會決定拒絕)。

如果您看到高相符項目可信度分數，但確定沒有相符項目；或是看到低分數，但實際上確定有相符項目，則可能要調整自己的訓練資料。

存在大規模產業資料集時，可信度分數就特別有用，因為檢閱每個 FindMatches 決定是不切實際的行為。

相符項目可信度分數在 AWS Glue 2.0 或更高版本中推出。

## 產生相符項目可信度分數
<a name="specifying-match-scoring"></a>

您可以在呼叫 `FindMatches` 或 `FindIncrementalMatches` API 時將 `computeMatchConfidenceScores` 的布林值設定為 True，即可產生相符項目可信度分數。

AWS Glue 將新的 `column match_confidence_score` 新增至輸出。

## 相符項目評分範例
<a name="match-scoring-examples"></a>

例如，請考慮下列相符的記錄：

**分數 >= 0.9**  
相符記錄的摘要：

```
  primary_id  |   match_id  | match_confidence_score

3281355037663    85899345947   0.9823658302132061
1546188247619    85899345947   0.9823658302132061
```

詳細資訊:

![\[網際網路閘道的路由表範例。\]](http://docs.aws.amazon.com/zh_tw/glue/latest/dg/images/match_score1.png)


在此範例中，我們可以看到兩條記錄非常相似，共同具有 `display_position`、`primary_name` 和 `street name`。

**分數 >= 0.8 和分數 < 0.9**  
相符記錄的摘要：

```
  primary_id  |   match_id  | match_confidence_score

309237680432     85899345928   0.8309852373674638
3590592666790    85899345928   0.8309852373674638
343597390617     85899345928   0.8309852373674638
249108124906     85899345928   0.8309852373674638
463856477937     85899345928   0.8309852373674638
```

詳細資訊:

![\[網際網路閘道的路由表範例。\]](http://docs.aws.amazon.com/zh_tw/glue/latest/dg/images/match_score2.png)


在此範例中，我們可以看到這些記錄具有相同的 `primary_name` 和 `country`。

**分數 > = 0.6 和分數 < 0.7**  
相符記錄的摘要：

```
  primary_id  |   match_id  | match_confidence_score

2164663519676    85899345930   0.6971099896480333
 317827595278    85899345930   0.6971099896480333
 472446424341    85899345930   0.6971099896480333
3118146262932    85899345930   0.6971099896480333
 214748380804    85899345930   0.6971099896480333
```

詳細資訊:

![\[網際網路閘道的路由表範例。\]](http://docs.aws.amazon.com/zh_tw/glue/latest/dg/images/match_score3.png)


在此範例中，我們可以看到這些記錄僅具有相同的 `primary_name`。

如需詳細資訊，請參閱：
+ [步驟 5：使用您的機器學習轉換新增和執行任務](machine-learning-transform-tutorial.md#ml-transform-tutorial-add-job)
+ PySpark：[FindMatches 類別](aws-glue-api-crawler-pyspark-transforms-findmatches.md)
+ PySpark：[FindIncrementalMatches 類別](aws-glue-api-crawler-pyspark-transforms-findincrementalmatches.md)
+ Scala：[FindMatches 類別](glue-etl-scala-apis-glue-ml-findmatches.md)
+ Scala：[FindIncrementalMatches 類別](glue-etl-scala-apis-glue-ml-findincrementalmatches.md)