

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Configurar un trabajo de SageMaker procesamiento de Clarify
<a name="clarify-processing-job-configure-parameters"></a>

Para analizar sus datos y modelos en busca de sesgos y explicabilidad con SageMaker Clarify, debe configurar un trabajo de procesamiento de SageMaker Clarify. Esta guía muestra cómo especificar el nombre del conjunto de datos de entrada, el nombre del archivo de configuración de análisis y la ubicación de salida de un trabajo de procesamiento. Para configurar el contenedor de procesamiento, las entradas, las salidas, los recursos y otros parámetros del trabajo, tiene dos opciones. Puedes usar la `CreateProcessingJob` API SageMaker AI o usar la API SageMaker AI Python SDK`SageMaker ClarifyProcessor`,

Para obtener información sobre los parámetros que son comunes a todos los trabajos de procesamiento, consulta [Amazon SageMaker API Reference](https://docs.aws.amazon.com/sagemaker/latest/APIReference/Welcome.html?icmpid=docs_sagemaker_lp).

## Configure un trabajo SageMaker de procesamiento de Clarify mediante la SageMaker API
<a name="clarify-processing-job-configure-parameters-API"></a>

Las siguientes instrucciones muestran cómo proporcionar cada parte de la configuración específica SageMaker de Clarify mediante la `CreateProcessingJob` API.

1. Introduzca el identificador de investigación uniforme (URI) de una imagen de SageMaker contenedor de Clarify dentro del `AppSpecification` parámetro, como se muestra en el siguiente ejemplo de código.

   ```
   {
       "ImageUri": "{{the-clarify-container-image-uri}}"
   }
   ```
**nota**  
El URI debe identificar una imagen de contenedor de SageMaker Clarify prediseñada. `ContainerEntrypoint`y no `ContainerArguments` son compatibles. Para obtener más información sobre las imágenes SageMaker de contenedores de Clarify, consulte[Contenedores SageMaker Clarify prediseñados](clarify-processing-job-configure-container.md).

1. Especifique tanto la configuración del análisis como los parámetros del conjunto de datos de entrada dentro del parámetro `ProcessingInputs`.

   1. Especifique la ubicación del archivo de configuración del análisis JSON, que incluye los parámetros para el análisis del sesgo y el análisis de explicabilidad. El parámetro `InputName` del objeto `ProcessingInput` debe ser **analysis\_config** como se muestra en el siguiente ejemplo de código.

      ```
      {
          "InputName": "analysis_config",
          "S3Input": {
              "S3Uri": "{{s3://your-bucket/analysis_config.json}}",
              "S3DataType": "S3Prefix",
              "S3InputMode": "File",
              "LocalPath": "/opt/ml/processing/{{input/config}}"
          }
      }
      ```

      Para obtener más información sobre el esquema del archivo de configuración del análisis, consulte [Archivos de configuración del análisis](clarify-processing-job-configure-analysis.md).

   1. Especifique la ubicación del conjunto de datos de entrada. El parámetro `InputName` del objeto `ProcessingInput` debe ser `dataset`. Este parámetro es opcional si ha proporcionado el “dataset\_uri” en el archivo de configuración del análisis. Los siguientes valores son obligatorios en la configuración de `S3Input`.

      1. `S3Uri` puede ser un objeto de Amazon S3 o un prefijo de S3.

      1. `S3InputMode` debe ser del tipo **File**.

      1. `S3CompressionType` debe ser del tipo `None` (el valor predeterminado).

      1. `S3DataDistributionType` debe ser del tipo `FullyReplicated` (el valor predeterminado).

      1. `S3DataType` puede ser `S3Prefix` o `ManifestFile`. Para usarlo`ManifestFile`, el `S3Uri` parámetro debe especificar la ubicación de un archivo de manifiesto que siga el esquema de la sección de referencia de la SageMaker API [S3Uri](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_S3DataSource.html#sagemaker-Type-S3DataSource-S3Uri). Este archivo de manifiesto debe enumerar los objetos de S3 que contienen los datos de entrada para el trabajo.

      En el siguiente código se muestra un ejemplo de configuración de entrada.

      ```
      {
          "InputName": "dataset",
          "S3Input": {
              "S3Uri": "{{s3://your-bucket/your-dataset.csv}}",
              "S3DataType": "S3Prefix",
              "S3InputMode": "File",
              "LocalPath": "/opt/ml/processing/{{input/data}}"
          }
      }
      ```

1. Especifique la configuración de la salida del trabajo de procesamiento dentro del parámetro `ProcessingOutputConfig`. Se requiere un único objeto `ProcessingOutput` en la configuración de `Outputs`. La configuración de salida requiere lo siguiente:

   1. `OutputName` debe ser **analysis\_result**.

   1. `S3Uri` debe ser un prefijo de S3 para la ubicación de salida.

   1. `S3UploadMode` se debe establecer en **EndOfJob**.

   En el siguiente código se muestra un ejemplo de configuración de salida.

   ```
   {
       "Outputs": [{ 
           "OutputName": "analysis_result",
           "S3Output": { 
               "S3Uri": "{{s3://your-bucket/result/}}",
               "S3UploadMode": "EndOfJob",
               "LocalPath": "/opt/ml/processing/{{output}}"
            }
        }]
   }
   ```

1. Especifique la configuración `ClusterConfig` de los recursos que utiliza en el trabajo de procesamiento dentro del parámetro `ProcessingResources`. Se requieren los siguientes parámetros dentro del objeto `ClusterConfig`.

   1. `InstanceCount` especifica el número de instancias de computación del clúster que ejecuta el trabajo de procesamiento. Para trabajos de procesamiento distribuido, especifique un valor mayor que `1`.

   1. `InstanceType` hace referencia a los recursos que ejecuta su trabajo de procesamiento. Como el análisis SHAP mediante SageMaker IA requiere un uso intensivo de recursos informáticos, el uso de un tipo de instancia que esté optimizado para el procesamiento debería mejorar el tiempo de ejecución del análisis. El trabajo de SageMaker procesamiento de Clarify no utiliza. GPUs

   En el siguiente código se muestra un ejemplo de configuración de recursos.

   ```
   {
       "ClusterConfig": {
            "InstanceCount": {{1}},
            "InstanceType": "{{ml.m5.xlarge}}",
            "VolumeSizeInGB": {{20}}
        }
   }
   ```

1. Especifique la configuración de la red que utilizará en el trabajo de procesamiento dentro del objeto `NetworkConfig`. Los siguientes valores son obligatorios en la configuración.

   1. `EnableNetworkIsolation`debe estar establecido en `False` (predeterminado) para que SageMaker Clarify pueda invocar un punto final, si es necesario, para realizar predicciones.

   1. Si el modelo o punto final que proporcionó al trabajo de SageMaker Clarify está dentro de una Amazon Virtual Private Cloud (Amazon VPC), el trabajo de SageMaker Clarify también debe estar en la misma VPC. Especifique la VPC mediante. [VpcConfig](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_VpcConfig.html) Además, la VPC debe tener puntos de conexión con un bucket de Amazon S3, un servicio de IA y SageMaker un servicio de SageMaker AI Runtime.

      Si está activado el procesamiento distribuido, también debe permitir la comunicación entre distintas instancias en el mismo trabajo de procesamiento. Configure una regla para el grupo de seguridad que permita conexiones entrantes entre miembros del mismo grupo de seguridad. Para obtener más información, consulte [Ofrezca a Amazon SageMaker Clarify Jobs acceso a los recursos de su Amazon VPC](clarify-vpc.md). 

   El código siguiente proporciona un ejemplo de configuración de red.

   ```
   {
       "EnableNetworkIsolation": False,
       "VpcConfig": {
           ...
       }
   }
   ```

1. Establezca el tiempo máximo que se ejecutará el trabajo mediante el parámetro `StoppingCondition`. El tiempo máximo que puede ejecutarse un SageMaker trabajo de Clarify es de `7` días o `604800` segundos. Si el trabajo no se puede completar dentro de este límite de tiempo, se detendrá y no se proporcionará ningún resultado de análisis. Por ejemplo, la siguiente configuración limita el tiempo máximo de ejecución del trabajo a 3600 segundos.

   ```
   {
       "MaxRuntimeInSeconds": 3600
   }
   ```

1. Especifique un rol de IAM para el parámetro `RoleArn`. El puesto debe tener una relación de confianza con Amazon SageMaker AI. Se puede utilizar para realizar las operaciones de SageMaker API que se indican en la siguiente tabla. Recomendamos utilizar la política gestionada de Amazon SageMaker AIFull Access, que otorga acceso total a la SageMaker IA. Para obtener más información sobre esta política, consulte [AWS política gestionada: AmazonSageMakerFullAccess](security-iam-awsmanpol.md#security-iam-awsmanpol-AmazonSageMakerFullAccess). Si tiene dudas sobre la posibilidad de conceder acceso total, los permisos mínimos necesarios dependen de si proporciona un modelo o un nombre de punto de conexión. El uso de un nombre de punto final permite conceder menos permisos a la SageMaker IA.

   La siguiente tabla contiene las operaciones de API utilizadas por el trabajo de procesamiento SageMaker de Clarify. Una **X** bajo **Nombre del modelo** y **Nombre del punto de conexión** indica la operación de la API necesaria para cada entrada.    
[See the AWS documentation website for more details](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/clarify-processing-job-configure-parameters.html)

   Para obtener más información acerca de los permisos requeridos, consulte [Permisos de la API de Amazon SageMaker AI: referencia sobre acciones, permisos y recursos](api-permissions-reference.md).

   Para obtener más información sobre cómo transferir funciones a la SageMaker IA, consulte[Transferencia de roles](sagemaker-roles.md#sagemaker-roles-pass-role).

   Una vez que tenga las partes individuales de la configuración del trabajo de procesamiento, combínelas para configurar el trabajo.

## Configurar un trabajo SageMaker de procesamiento de Clarify mediante el AWS SDK para Python
<a name="clarify-processing-job-configure-parameters-SDK"></a>

El siguiente ejemplo de código muestra cómo lanzar un trabajo de SageMaker procesamiento de Clarify mediante el [AWS SDK para Python](https://aws.amazon.com/sdk-for-python/).

```
sagemaker_client.create_processing_job(
    ProcessingJobName="{{your-clarify-job-name}}",
    AppSpecification={
        "ImageUri": "t{{he-clarify-container-image-uri}}",
    },
    ProcessingInputs=[{
            "InputName": "analysis_config",
            "S3Input": {
                "S3Uri": "s3://{{your-bucket/analysis_config.json}}",
                "S3DataType": "S3Prefix",
                "S3InputMode": "File",
                "LocalPath": "/opt/ml/processing/{{input/config}}",
            },
        }, {
            "InputName": "dataset",
            "S3Input": {
                "S3Uri": "s3://{{your-bucket/your-dataset.csv}}",
                "S3DataType": "S3Prefix",
                "S3InputMode": "File",
                "LocalPath": "/opt/ml/processing/{{input/data}}",
            },
        },
    ],
    ProcessingOutputConfig={
        "Outputs": [{ 
            "OutputName": "analysis_result",
            "S3Output": { 
               "S3Uri": "s3://{{your-bucket/result/}}",
               "S3UploadMode": "EndOfJob",
               "LocalPath": "/opt/ml/processing/{{output}}",
            },   
        }],
    },
    ProcessingResources={
        "ClusterConfig": {
            "InstanceCount": {{1}},
            "InstanceType": "{{ml.m5.xlarge}}",
            "VolumeSizeInGB": {{20}},
        },
    },
    NetworkConfig={
        "EnableNetworkIsolation": False,
        "VpcConfig": {
            ...
        },
    },
    StoppingCondition={
        "MaxRuntimeInSeconds": {{3600}},
    },
    RoleArn="arn:aws:iam::{{<your-account-id>:role/service-role/AmazonSageMaker-ExecutionRole}}",
)
```

Para ver un ejemplo de cuaderno con instrucciones para ejecutar un trabajo de SageMaker procesamiento de Clarify con el AWS SDK para Python, consulte [Equidad y explicabilidad con SageMaker Clarify con el AWS SDK para Python](http://github.com/aws/amazon-sagemaker-examples/blob/main/sagemaker-clarify/fairness_and_explainability/fairness_and_explainability_boto3.ipynb). Cualquier bucket de S3 utilizado en el bloc de notas debe estar en la misma AWS región que la instancia del bloc de notas que accede a él.

## Configurar un trabajo de SageMaker procesamiento de Clarify mediante el SDK de SageMaker Python
<a name="clarify-processing-job-configure-parameters-SM-SDK"></a>

También puede configurar un trabajo de SageMaker procesamiento de Clarify mediante [SageMaker ClarifyProcessor](https://sagemaker.readthedocs.io/en/stable/api/training/processing.html#sagemaker.clarify.SageMakerClarifyProcessor)la API del SDK de SageMaker Python. Para obtener más información, consulte [Ejecute SageMaker Clarify Processing Jobs para analizar los sesgos y facilitar la explicación](clarify-processing-job-run.md).

**Topics**
+ [Contenedores SageMaker Clarify prediseñados](clarify-processing-job-configure-container.md)
+ [Archivos de configuración del análisis](clarify-processing-job-configure-analysis.md)
+ [Guía de compatibilidad de formatos de datos](clarify-processing-job-data-format.md)