

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 綜合資料集
<a name="clarify-online-explainability-create-endpoint-synthetic"></a>

SageMaker Clarify 使用核心 SHAP 演算法。指定一筆記錄 (也稱為範例或執行個體) 及 SHAP 組態，解釋器首先產生一個合成資料集。然後，SageMaker Clarify 查詢模型容器以取得資料集的預測，然後計算並傳回特徵屬性。綜合資料集的大小會影響 Clarify 解釋器的執行期。較大的綜合資料集比較小的資料集需要更多時間來取得模型預測。

 合成資料集大小是由下列公式所決定：

```
Synthetic dataset size = SHAP baseline size * n_samples
```

SHAP 基準大小是 SHAP 基準資料中的記錄數。此資訊取自 `ShapBaselineConfig`。

`n_samples` 的大小是由解釋器組態的參數 `NumberOfSamples` 及特徵的數量所設定。如果特徵的數量為 `n_features`，則 `n_samples` 如下所示：

```
n_samples = MIN(NumberOfSamples, 2^n_features - 2)
```

如果未提供 `NumberOfSamples`，則以下顯示 `n_samples`。

```
n_samples = MIN(2*n_features + 2^11, 2^n_features - 2)
```

例如，具有 10 個特徵的表格記錄的 SHAP 基準大小為 1。如果未提供 `NumberOfSamples`，則綜合資料集包含 1022 筆記錄。如果記錄具有 20 個特徵，則合成資料集包含 2088 筆記錄。

對於 NLP 問題，`n_features` 等於非文字特徵的數量加上文字單位的數量。

**注意**  
`InvokeEndpoint` API 有請求逾時限制。如果綜合資料集太大，解釋器可能無法在此限制內完成計算。如有必要，請使用先前的資訊來瞭解並減少 SHAP 基準大小及 `NumberOfSamples`。如果您的模型容器設定為處理批次請求，您也可以調整 `MaxRecordCount` 的值。