

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Synthetischer Datensatz
<a name="clarify-online-explainability-create-endpoint-synthetic"></a>

SageMaker Clarify verwendet den Kernel-SHAP-Algorithmus. Anhand eines Datensatzes (auch als Beispiel oder Instanz bezeichnet) und der SHAP-Konfiguration generiert der Explainer zunächst einen synthetischen Datensatz. SageMaker Clarify fragt dann den Modellcontainer nach den Vorhersagen des Datensatzes ab und berechnet dann die Feature-Attributionen und gibt sie zurück. Die Größe des synthetischen Datensatzes wirkt sich auf die Laufzeit des Clarify-Erklärers aus. Größere synthetische Datensätze benötigen mehr Zeit, um Modellvorhersagen zu erhalten als kleinere.

 Die Größe des synthetischen Datensatzes wird durch die folgende Formel bestimmt:

```
Synthetic dataset size = SHAP baseline size * n_samples
```

Die SHAP-Basisgröße ist die Anzahl der Datensätze in den SHAP-Basisdaten. Diese Informationen stammen aus dem `ShapBaselineConfig`.

Die Größe von `n_samples` wird durch den Parameter `NumberOfSamples` in der Erklärkonfiguration und die Anzahl der Funktionen festgelegt. Wenn die Anzahl der Features `n_features` ist, dann ist `n_samples` wie folgt: 

```
n_samples = MIN(NumberOfSamples, 2^n_features - 2)
```

Im Folgenden wird `n_samples` gezeigt, wenn `NumberOfSamples` nicht vorhanden ist.

```
n_samples = MIN(2*n_features + 2^11, 2^n_features - 2)
```

Beispielsweise hat ein tabellarischer Datensatz mit 10 Features eine SHAP-Basisliniengröße von 1. Wenn `NumberOfSamples` nicht angegeben ist, enthält der synthetische Datensatz 1022 Datensätze. Wenn der Datensatz 20 Features enthält, hat der synthetische Datensatz 2088 Datensätze.

Bei NLP-Problemen entspricht `n_features` der Anzahl der Nicht-Text-Features plus der Anzahl der Texteinheiten.

**Anmerkung**  
Die `InvokeEndpoint`-API hat ein Zeitlimit für Anfragen. Wenn der synthetische Datensatz zu groß ist, kann der Erklärer die Berechnung möglicherweise nicht innerhalb dieser Grenze abschließen. Verwenden Sie gegebenenfalls die vorherigen Informationen, um die Größe der SHAP-Basislinie und `NumberOfSamples` zu verstehen und diese zu reduzieren. Wenn Ihr Modellcontainer für die Verarbeitung von Batch-Anfragen eingerichtet ist, können Sie auch den Wert von `MaxRecordCount` anpassen.