

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Conjunto de datos sintéticos
<a name="clarify-online-explainability-create-endpoint-synthetic"></a>

SageMaker Clarify usa el algoritmo SHAP del núcleo. A partir de un registro (también denominado muestra o instancia) y de la configuración SHAP, el explicador primero genera un conjunto de datos sintético. SageMaker A continuación, Clarify consulta el contenedor del modelo para encontrar las predicciones del conjunto de datos y, a continuación, calcula y devuelve las atribuciones de las características. El tamaño del conjunto de datos sintético afecta al tiempo de ejecución del explicador de Clarify. Los conjuntos de datos sintéticos más grandes requieren más tiempo para obtener predicciones de modelos que los más pequeños.

 El tamaño del conjunto de datos sintéticos se determina mediante la siguiente fórmula:

```
Synthetic dataset size = SHAP baseline size * n_samples
```

El tamaño de referencia SHAP es el número de registros en los datos de referencia SHAP. Esta información se toma de `ShapBaselineConfig`.

El tamaño de `n_samples` lo establece el parámetro `NumberOfSamples` en la configuración del explicador y el número de características. Si el número de característica es `n_features`, entonces `n_samples` es lo siguiente: 

```
n_samples = MIN(NumberOfSamples, 2^n_features - 2)
```

A continuación se muestra `n_samples` si no se proporciona el `NumberOfSamples`.

```
n_samples = MIN(2*n_features + 2^11, 2^n_features - 2)
```

Por ejemplo, un registro tabular con 10 características tiene un tamaño de referencia SHAP de 1. Si no se proporciona el `NumberOfSamples`, el conjunto de datos sintético contiene 1022 registros. Si el registro tiene 20 características, el conjunto de datos sintético contiene 2088 registros.

En el caso de problemas de NLP, `n_features` es igual al número de características no textuales más el número de unidades de texto.

**nota**  
La API `InvokeEndpoint` tiene un límite de tiempo de espera para las solicitudes. Si el conjunto de datos sintético es demasiado grande, es posible que el explicador no pueda completar el cálculo dentro de este límite. Si es necesario, utilice la información anterior para comprender y reducir el tamaño de referencia SHAP y `NumberOfSamples`. Si el contenedor de modelos está configurado para gestionar solicitudes por lotes, también puede ajustar el valor de `MaxRecordCount`.