Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Creación de un trabajo de evaluación automática de modelos en Amazon Bedrock
<a name="evaluation-automatic"></a>

En el tema se proporcionan instrucciones detalladas para crear un trabajo automático de evaluación del modelo.

**Topics**
+ [Pasos necesarios antes de crear su primer trabajo de evaluación automática de modelos](model-evaluation-type-automatic.md)
+ [Tipos de tareas de evaluación del modelo en Amazon Bedrock](model-evaluation-tasks.md)
+ [Uso de conjuntos de datos de peticiones para la evaluación de modelos en Amazon Bedrock](model-evaluation-prompt-datasets.md)
+ [Inicio de un trabajo de evaluación automática de modelos en Amazon Bedrock](model-evaluation-jobs-management-create.md)
+ [Enumeración de los trabajos de evaluación automática de modelos en Amazon Bedrock](model-evaluation-jobs-management-list.md)
+ [Detención de un trabajo de evaluación del modelo en Amazon Bedrock](model-evaluation-jobs-management-stop.md)
+ [Eliminación de un trabajo de evaluación del modelo en Amazon Bedrock](model-evaluation-jobs-management-delete.md)

# Pasos necesarios antes de crear su primer trabajo de evaluación automática de modelos
<a name="model-evaluation-type-automatic"></a>

Los trabajos de evaluación automática de modelos requieren acceso a los siguientes recursos de nivel de servicio. Utilice los temas que se indican en los enlaces para obtener más información acerca de la configuración.

**Requisitos de permisos de uso compartido de recursos entre orígenes (CORS)**  
Todos los trabajos de evaluación de modelos basados en la consola requieren que los permisos de uso compartido de recursos entre regiones (CORS) estén habilitados en todos los buckets de Amazon S3 especificados en el trabajo de evaluación de modelos. Para obtener más información, consulte [Permisos de uso compartido de recursos entre orígenes (CORS) requeridos en buckets de S3](model-evaluation-security-cors.md)

**Recursos de nivel de servicio necesarios para iniciar un trabajo de evaluación automática de modelos**

1. Para iniciar un trabajo de evaluación automática de modelos, debe tener acceso como mínimo a un modelo fundacional de Amazon Bedrock. Para obtener más información, consulte [Acceso a los modelos fundacionales de Amazon Bedrock](model-access.md).

1. Para crear un trabajo de evaluación automática de modelos [https://console.aws.amazon.com/bedrock/](https://console.aws.amazon.com/bedrock/) AWS Command Line Interface, necesita acceso al AWS SDK compatible o a uno compatible. Para obtener más información sobre las acciones y recursos de IAM necesarios, consulte [Permisos de la consola necesarios para crear un trabajo automático de evaluación del modelo](#base-for-automatic).

1. Cuando comienza el trabajo de evaluación de modelos, se utiliza un rol de servicio para realizar acciones en su nombre. Para obtener más información sobre las acciones de IAM necesarias y los requisitos de la política de confianza, consulte [Requisitos de rol de servicio para los trabajos de evaluación de modelos automática](automatic-service-roles.md).

1. Amazon Simple Storage Service: todos los datos utilizados y generados deben colocarse en un bucket de Amazon S3 que esté en el mismo lugar Región de AWS en un trabajo de evaluación automática de modelos.

1. Uso compartido de recursos entre orígenes (CORS): los trabajos de evaluación automática de modelos que se crean mediante la consola de Amazon Bedrock requieren que especifique una configuración de CORS en el bucket de S3. Para obtener más información, consulte [Permisos de uso compartido de recursos entre orígenes (CORS) requeridos en buckets de S3](model-evaluation-security-cors.md).

1. Un rol de servicio de IAM: para ejecutar un trabajo de evaluación automática de modelos, debe crear un rol de servicio. El rol de servicio permite a Amazon Bedrock realizar acciones en su nombre en su AWS cuenta. Para obtener más información, consulte [Requisitos de rol de servicio para los trabajos de evaluación de modelos automática](automatic-service-roles.md). 

## Permisos de la consola necesarios para crear un trabajo automático de evaluación del modelo
<a name="base-for-automatic"></a>

La siguiente política contiene el conjunto mínimo de acciones y recursos de IAM en Amazon Bedrock y Amazon S3 necesarios para crear un trabajo de evaluación del modelo *automático* desde la consola de Amazon Bedrock.

En la política, recomendamos utilizar el elemento de política JSON de IAM [Resource](https://docs.aws.amazon.com/IAM/latest/UserGuide/reference_policies_elements_resource.html) para limitar el acceso únicamente a los modelos y buckets necesarios para el usuario, grupo o rol de IAM.

------
#### [ JSON ]

****  

```
{
  "Version":"2012-10-17",		 	 	 
  "Statement": [
    {
      "Sid": "AllowPassingConsoleCreatedServiceRoles",
      "Effect": "Allow",
      "Action": [
        "iam:PassRole"
      ],
      "Resource": [
        "arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-IAM-Role-*"
      ],
      "Condition": {
        "StringEquals": {
          "iam:PassedToService": "bedrock.amazonaws.com"
        }
      }
    },
    {
      "Sid": "BedrockConsole",
      "Effect": "Allow",
      "Action": [
        "bedrock:CreateEvaluationJob",
        "bedrock:GetEvaluationJob",
        "bedrock:ListEvaluationJobs",
        "bedrock:StopEvaluationJob",
        "bedrock:GetCustomModel",
        "bedrock:ListCustomModels",
        "bedrock:CreateProvisionedModelThroughput",
        "bedrock:UpdateProvisionedModelThroughput",
        "bedrock:GetProvisionedModelThroughput",
        "bedrock:ListProvisionedModelThroughputs",
        "bedrock:GetImportedModel",
        "bedrock:ListImportedModels",
        "bedrock:ListMarketplaceModelEndpoints",
        "bedrock:ListTagsForResource",
        "bedrock:UntagResource",
        "bedrock:TagResource"
      ],
      "Resource": [
        "arn:aws:bedrock:us-west-2::foundation-model/model-id-of-foundational-model",
        "arn:aws:bedrock:us-west-2:111122223333:inference-profile/*",
        "arn:aws:bedrock:us-west-2:111122223333:provisioned-model/*",
        "arn:aws:bedrock:us-west-2:111122223333:imported-model/*"
      ]
    },
    {
      "Sid": "AllowConsoleS3AccessForModelEvaluation",
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:GetBucketCORS",
        "s3:ListBucket",
        "s3:ListBucketVersions",
        "s3:GetBucketLocation"
      ],
      "Resource": [
        "arn:aws:s3:::my_output_bucket",
        "arn:aws:s3:::input_datasets/prompts.jsonl"
      ]
    }
  ]
}
```

------

# Tipos de tareas de evaluación del modelo en Amazon Bedrock
<a name="model-evaluation-tasks"></a>

En un trabajo de evaluación del modelo, la evaluación es una tarea que quiere que realice el modelo en función de la información de sus peticiones. Puede elegir un tipo de tarea por cada trabajo de evaluación de modelos.

En la siguiente tabla se resumen los tipos de tareas disponibles para las evaluaciones automáticas del modelo, los conjuntos de datos integrados y las métricas pertinentes para cada tipo de tarea.


**Conjuntos de datos integrados disponibles para trabajos de evaluación automática de modelos en Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/bedrock/latest/userguide/model-evaluation-tasks.html)

**Topics**
+ [Generación de texto general para la evaluación del modelo en Amazon Bedrock](model-evaluation-tasks-general-text.md)
+ [Resumen de texto para la evaluación del modelo en Amazon Bedrock](model-evaluation-tasks-text-summary.md)
+ [Pregunta y respuesta para la evaluación del modelo en Amazon Bedrock](model-evaluation-tasks-question-answer.md)
+ [Clasificación de textos para la evaluación del modelo en Amazon Bedrock](model-evaluation-text-classification.md)

# Generación de texto general para la evaluación del modelo en Amazon Bedrock
<a name="model-evaluation-tasks-general-text"></a>

La generación de texto general es una tarea que utilizan las aplicaciones que incluyen chatbots. Las respuestas que genera un modelo a las preguntas generales están influenciadas por la corrección, la relevancia y el sesgo que contiene el texto utilizado para entrenar el modelo.

**importante**  
En lo que respecta a la generación de texto general, existe un problema conocido en el sistema que impide que los modelos Cohere completen correctamente la evaluación de toxicidad.

Los siguientes conjuntos de datos integrados contienen peticiones adecuadas para su uso en tareas generales de generación de texto.

**Bias in Open-ended Language Generation Dataset (BOLD)**  
El Bias in Open-ended Language Generation Dataset (conjunto de datos de sesgo en la generación de lenguajes de composición abierta, o BOLD) es un conjunto de datos que evalúa la imparcialidad en la generación de textos en general y se centra en cinco ámbitos: profesión, género, raza, ideologías religiosas e ideologías políticas. Contiene 23 679 peticiones de generación de texto diferentes.

**RealToxicityPrompts**  
RealToxicityPrompts es un conjunto de datos que evalúa la toxicidad. Intenta que el modelo genere un lenguaje racista, sexista o tóxico por algún otro motivo. Este conjunto de datos contiene 100 000 indicaciones de generación de texto diferentes.

**T-Rex: una alineación a gran escala del lenguaje natural con triples de base de conocimientos (TREX)**  
TREX es un conjunto de datos compuesto por triples de base de conocimientos (KBT) extraídos de Wikipedia. Los KBT son un tipo de estructura de datos que se utiliza en el procesamiento de lenguaje natural (NLP) y la representación del conocimiento. Constan de un sujeto, un predicado y un objeto, donde el sujeto y el objeto están vinculados por una relación. Un ejemplo de un triple de base de conocimientos (KBT) es “George Washington fue el presidente de los Estados Unidos”. El sujeto es “George Washington”, el predicado es “fue el presidente de” y el objeto es “los Estados Unidos”.

**WikiText2**  
WikiText2 es un conjunto de datos de HuggingFace que contiene peticiones que se utilizan en la generación de texto general.

La siguiente tabla resume las métricas calculadas y el conjunto de datos integrado recomendado que están disponibles para los trabajos de evaluación automática de modelos. Para especificar correctamente los conjuntos de datos integrados disponibles mediante la AWS CLI o el AWS SDK compatible, utilice los nombres de los parámetros de la columna *Conjuntos de datos integrados disponibles (API)*.


**Conjuntos de datos integrados disponibles para la generación de texto general en Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/bedrock/latest/userguide/model-evaluation-tasks-general-text.html)

Para obtener más información sobre cómo se calcula la métrica computada para cada conjunto de datos integrado, consulte [Revisión de los informes y las métricas de los trabajos de evaluación de modelos en Amazon Bedrock](model-evaluation-report.md)

# Resumen de texto para la evaluación del modelo en Amazon Bedrock
<a name="model-evaluation-tasks-text-summary"></a>

El resumen de texto se utiliza para tareas como la creación de resúmenes de noticias, documentos legales, artículos académicos, vistas previas de contenido y selección de contenido. La ambigüedad, la coherencia, el sesgo y la fluidez del texto utilizado para entrenar el modelo, así como la pérdida de información, la precisión, la relevancia o el desajuste del contexto, pueden influir en la calidad de las respuestas.

**importante**  
En lo que respecta al resumen de texto, existe un problema conocido en el sistema que impide que los modelos Cohere completen correctamente la evaluación de toxicidad.

Se recomienda utilizar el siguiente conjunto de datos integrado con el tipo de tarea de resumen de tareas.

**Gigaword**  
El conjunto de datos de Gigaword consta de titulares de noticias. Este conjunto de datos se utiliza en tareas de resumen de texto.

La siguiente tabla resume las métricas calculadas y el conjunto de datos integrado recomendado. Para especificar correctamente los conjuntos de datos integrados disponibles mediante la AWS CLI o el AWS SDK compatible, utilice los nombres de los parámetros de la columna *Conjuntos de datos integrados disponibles (API)*.


**Conjuntos de datos integrados disponibles para el resumen de texto general en Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/bedrock/latest/userguide/model-evaluation-tasks-text-summary.html)

Para obtener más información sobre cómo se calcula la métrica computada para cada conjunto de datos integrado, consulte [Revisión de los informes y las métricas de los trabajos de evaluación de modelos en Amazon Bedrock](model-evaluation-report.md)

# Pregunta y respuesta para la evaluación del modelo en Amazon Bedrock
<a name="model-evaluation-tasks-question-answer"></a>

Las preguntas y respuestas se utilizan para tareas como la generación de respuestas automáticas en el servicio de asistencia, la recuperación de información y el aprendizaje electrónico. Si el texto utilizado para formar el modelo fundacional contiene cuestiones como datos incompletos o inexactos, sarcasmo o ironía, la calidad de las respuestas puede deteriorarse.

**importante**  
En lo que respecta a la pregunta y la respuesta, existe un problema conocido en el sistema que impide que los modelos Cohere completen correctamente la evaluación de toxicidad.

Se recomienda utilizar los siguientes conjuntos de datos integrados con el tipo de tarea de preguntas y respuestas.

**BoolQ**  
BoolQ es un conjunto de datos que consta de pares de yes/no preguntas y respuestas. La petición contiene un pasaje corto y luego una pregunta sobre el pasaje. Se recomienda utilizar este conjunto de datos con tareas de tipo preguntas y respuestas.

**Preguntas naturales**  
Las preguntas naturales son un conjunto de datos que consta de preguntas de usuarios reales enviadas a la búsqueda de Google.

**TriviaQA**  
TriviaQA es un conjunto de datos que contiene más de 650 000. question-answer-evidence-triples Este conjunto de datos se utiliza en tareas de preguntas y respuestas.

La siguiente tabla resume las métricas calculadas y el conjunto de datos integrado recomendado. Para especificar correctamente los conjuntos de datos integrados disponibles mediante el SDK o un AWS SDK compatible AWS CLI, utilice los nombres de los parámetros de la columna Conjuntos de datos *integrados* (API).


**Conjuntos de datos integrados disponibles para el tipo de tarea de preguntas y respuestas en Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/bedrock/latest/userguide/model-evaluation-tasks-question-answer.html)

Para obtener más información sobre cómo se calcula la métrica computada para cada conjunto de datos integrado, consulte [Revisión de los informes y las métricas de los trabajos de evaluación de modelos en Amazon Bedrock](model-evaluation-report.md)

# Clasificación de textos para la evaluación del modelo en Amazon Bedrock
<a name="model-evaluation-text-classification"></a>

Para clasificar texto en categorías predefinidas, se utiliza la clasificación de texto. Las aplicaciones que utilizan la clasificación de textos incluyen la recomendación de contenido, la detección de spam, la identificación del idioma y el análisis de tendencias en las redes sociales. Las clases desequilibradas, los datos ambiguos, los datos ruidosos y los sesgos en el etiquetado son algunos de los problemas que pueden provocar errores en la clasificación del texto.

**importante**  
En lo que respecta a la clasificación de texto, existe un problema conocido en el sistema que impide que los modelos Cohere completen correctamente la evaluación de toxicidad.

Se recomienda utilizar los siguientes conjuntos de datos integrados con el tipo de tarea de clasificación de texto.

**Women's E-Commerce Clothing Reviews**  
Women's E-Commerce Clothing Reviews es un conjunto de datos que contiene reseñas de ropa escritas por clientes. Este conjunto de datos se utiliza en tareas de clasificación de textos. 

La siguiente tabla resume las métricas calculadas y los conjuntos de datos integrados recomendados. Para especificar correctamente los conjuntos de datos integrados disponibles mediante la AWS CLI o el AWS SDK compatible, utilice los nombres de los parámetros de la columna *Conjuntos de datos integrados disponibles (API)*.


**Conjuntos de datos integrados disponibles en Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/bedrock/latest/userguide/model-evaluation-text-classification.html)

Para obtener más información sobre cómo se calcula la métrica computada para cada conjunto de datos integrado, consulte [Revisión de los informes y las métricas de los trabajos de evaluación de modelos en Amazon Bedrock](model-evaluation-report.md)

# Uso de conjuntos de datos de peticiones para la evaluación de modelos en Amazon Bedrock
<a name="model-evaluation-prompt-datasets"></a>

Para crear un trabajo de evaluación automática de modelos, debe especificar un conjunto de datos de peticiones. Estas peticiones se utilizan luego durante la inferencia con el modelo que seleccione para su evaluación. Amazon Bedrock proporciona conjuntos de datos integrados que se pueden usar en las evaluaciones automáticas de modelos, o puede traer su propio conjunto de datos de peticiones.

Utilice las siguientes secciones para obtener más información sobre los conjuntos de datos de peticiones integrados disponibles y sobre cómo crear sus conjuntos de datos de peticiones personalizados.

## Uso de conjuntos de datos de peticiones integradas para la evaluación automática de modelos en Amazon Bedrock
<a name="model-evaluation-prompt-datasets-builtin"></a>

Amazon Bedrock proporciona varios conjuntos de datos de peticiones integrados que puede utilizar en un trabajo de evaluación de modelos automática. Cada conjunto de datos integrado se basa en un conjunto de datos de código abierto. Hemos reducido la muestra de cada conjunto de datos de código abierto de forma aleatoria para incluir solo 100 peticiones.

Al crear un trabajo de evaluación de modelos automática y elegir un **Tipo de tarea**, Amazon Bedrock le proporciona una lista de métricas recomendadas. Para cada métrica, Amazon Bedrock también proporciona conjuntos de datos integrados recomendados. Para obtener más información sobre los tipos de tareas disponibles, consulte [Tipos de tareas de evaluación del modelo en Amazon Bedrock](model-evaluation-tasks.md).

**Bias in Open-ended Language Generation Dataset (BOLD)**  
El Bias in Open-ended Language Generation Dataset (conjunto de datos de sesgo en la generación de lenguajes de composición abierta, o BOLD) es un conjunto de datos que evalúa la imparcialidad en la generación de textos en general y se centra en cinco ámbitos: profesión, género, raza, ideologías religiosas e ideologías políticas. Contiene 23 679 peticiones de generación de texto diferentes.

**RealToxicityPrompts**  
RealToxicityPrompts es un conjunto de datos que evalúa la toxicidad. Intenta que el modelo genere un lenguaje racista, sexista o tóxico por algún otro motivo. Este conjunto de datos contiene 100 000 indicaciones de generación de texto diferentes.

**T-Rex: una alineación a gran escala del lenguaje natural con triples de base de conocimientos (TREX)**  
TREX es un conjunto de datos compuesto por la base de conocimientos Triples (KBTs) extraída de Wikipedia. KBTs son un tipo de estructura de datos que se utiliza en el procesamiento del lenguaje natural (PNL) y la representación del conocimiento. Constan de un sujeto, un predicado y un objeto, donde el sujeto y el objeto están vinculados por una relación. Un ejemplo de un triple de base de conocimientos (KBT) es “George Washington fue el presidente de los Estados Unidos”. El sujeto es “George Washington”, el predicado es “fue el presidente de” y el objeto es “los Estados Unidos”.

**WikiText2.**  
WikiText2 es un HuggingFace conjunto de datos que contiene las indicaciones que se utilizan en la generación de texto general.

**Gigaword**  
El conjunto de datos de Gigaword consta de titulares de noticias. Este conjunto de datos se utiliza en tareas de resumen de texto.

**BoolQ**  
BoolQ es un conjunto de datos que consta de pares de yes/no preguntas y respuestas. La petición contiene un pasaje corto y luego una pregunta sobre el pasaje. Se recomienda utilizar este conjunto de datos con tareas de tipo preguntas y respuestas.

**Preguntas naturales **  
Una pregunta natural es un conjunto de datos que consta de preguntas de usuarios reales enviadas a la búsqueda de Google.

**TriviaQA**  
TriviaQA es un conjunto de datos que contiene más de 650 000. question-answer-evidence-triples Este conjunto de datos se utiliza en tareas de preguntas y respuestas.

**Women's E-Commerce Clothing Reviews**  
Women's E-Commerce Clothing Reviews es un conjunto de datos que contiene reseñas de ropa escritas por clientes. Este conjunto de datos se utiliza en tareas de clasificación de textos. 

En la siguiente tabla, puede ver la lista de conjuntos de datos disponibles agrupados por tipo de tarea. Para obtener más información sobre cómo se calculan las métricas automáticas, consulte [Revisión de las métricas de un trabajo de evaluación de modelos automatizado en Amazon Bedrock (consola)](model-evaluation-report-programmatic.md). 


**Conjuntos de datos integrados disponibles para trabajos de evaluación automática de modelos en Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/bedrock/latest/userguide/model-evaluation-prompt-datasets.html)

Para obtener más información sobre los requisitos para crear conjuntos de datos de peticiones personalizados y ejemplos de ellos, consulte [Uso de conjuntos de datos de peticiones personalizados para la evaluación de modelos en Amazon Bedrock](#model-evaluation-prompt-datasets-custom).

## Uso de conjuntos de datos de peticiones personalizados para la evaluación de modelos en Amazon Bedrock
<a name="model-evaluation-prompt-datasets-custom"></a>

Puede crear un conjunto de datos de peticiones personalizado en los trabajos de evaluación automática de modelos. Los conjuntos de datos de peticiones personalizados deben almacenarse en Amazon S3 y utilizar el formato de línea JSON y la extensión de archivo `.jsonl`. Cada línea debe ser un objeto JSON válido. Puede haber hasta 1000 peticiones en el conjunto de datos por trabajo de evaluación automática.

Para los trabajos creados con la consola, debe actualizar la configuración de uso compartido de recursos entre orígenes (CORS) en el bucket de S3. Para obtener más información sobre los permisos de CORS necesarios, consulte [Permisos de uso compartido de recursos entre orígenes (CORS) requeridos en buckets de S3](model-evaluation-security-cors.md). 

Debe usar los siguientes pares de clave-valor en un conjunto de datos personalizado.
+ `prompt`: obligatorio para indicar la entrada para las siguientes tareas:
  + La pregunta a la que debe responder su modelo, en la generación de texto general.
  + La pregunta a la que debe responder su modelo en el tipo de tarea de pregunta y respuesta.
  + El texto que su modelo debe resumir en la tarea de resumen de texto.
  + El texto que el modelo debe clasificar en las tareas de clasificación.
+ `referenceResponse`: obligatorio para indicar la respuesta basada en la verdad básica con la que se evalúa su modelo para los siguientes tipos de tareas:
  + La respuesta a todas las peticiones de las tareas de preguntas y respuestas.
  + La respuesta para todas las evaluaciones de precisión y solidez.
+ `category`: (opcional) genera la puntuación de evaluación determinada para cada categoría. 

Por ejemplo, la precisión requiere tanto la pregunta formulada como la respuesta para comparar la respuesta del modelo. En este ejemplo, utilice la clave `prompt` con el valor contenido en la pregunta y la clave `referenceResponse` con el valor contenido en la respuesta de la siguiente manera.

```
{
  "prompt": "Bobigny is the capital of",
  "referenceResponse": "Seine-Saint-Denis",
  "category": "Capitals"
}
```

El ejemplo anterior es una sola línea de un archivo de entrada de líneas JSON que se enviará al modelo como una solicitud de inferencia. El modelo se invocará para cada registro de este tipo en su conjunto de datos de líneas JSON. El siguiente ejemplo de entrada de datos es para una tarea de pregunta/respuesta que utiliza una clave `category` opcional para la evaluación.

```
{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"}
{"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"}
{"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}
```

# Inicio de un trabajo de evaluación automática de modelos en Amazon Bedrock
<a name="model-evaluation-jobs-management-create"></a>

Puede crear un trabajo de evaluación automática de modelos utilizando el Consola de administración de AWS AWS CLI, o un AWS SDK compatible. En un trabajo de evaluación automática de modelos, el modelo que seleccione realiza la inferencia mediante peticiones de un conjunto de datos integrado compatible o su propio conjunto de datos de peticiones personalizado. Cada trabajo también requiere que seleccione un tipo de tarea. El tipo de tarea proporciona algunas métricas recomendadas y conjuntos de datos de peticiones integrado. Para obtener más información sobre los tipos de tareas y métricas disponibles, consulte [Tipos de tareas de evaluación del modelo en Amazon Bedrock](model-evaluation-tasks.md).

Los siguientes ejemplos muestran cómo crear un trabajo de evaluación automática de modelos mediante la consola Amazon Bedrock AWS CLI, el SDK para Python.

Todos los trabajos automáticos de evaluación del modelo requieren la creación de un rol de servicio de IAM. Para obtener más información acerca de los requisitos de IAM para configurar un trabajo de evaluación del modelo, consulte [Requisitos de rol de servicio para los trabajos de evaluación de modelos](model-evaluation-security-service-roles.md).

Los siguientes ejemplos muestran cómo crear un trabajo automático de evaluación del modelo. En la API, también puede incluir un [perfil de inferencia](cross-region-inference.md) en el trabajo especificando su ARN en el campo `modelIdentifier`.

------
#### [ Amazon Bedrock console ]

Utilice el siguiente procedimiento para crear un trabajo de evaluación del modelo en la consola de Amazon Bedrock. Para completar este procedimiento correctamente, asegúrese de que el usuario, grupo o rol de IAM tiene los permisos necesarios para acceder a la consola. Para obtener más información, consulte [Permisos de la consola necesarios para crear un trabajo automático de evaluación del modelo](model-evaluation-type-automatic.md#base-for-automatic). 

Además, cualquier conjunto de datos de peticiones personalizado que desee especificar en el trabajo de evaluación del modelo debe incluir los permisos de CORS necesarios en el bucket de Amazon S3. Para obtener más información sobre los permisos de CORS necesarios, consulte [Permisos de uso compartido de recursos entre orígenes (CORS) requeridos en buckets de S3](model-evaluation-security-cors.md).

**Creación de un trabajo automático de evaluación del modelo**

1. Abre la consola Amazon Bedrock: [https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. En el panel de navegación, elija **Evaluación de modelo**.

1. En la tarjeta **Crear una evaluación**, en **Automático**, elija **Crear evaluación automática**.

1. En la página **Crear evaluación automática**, proporcione la siguiente información

   1. **Nombre de la evaluación**: asigne al trabajo de evaluación de modelos un nombre que describa el trabajo. Este nombre se muestra en su lista de trabajos de evaluación de modelos. El nombre debe ser único en su cuenta en una Región de AWS.

   1. **Descripción** (opcional): proporcione una descripción opcional.

   1. **Modelos**: elija el modelo que desee utilizar en el trabajo de evaluación de modelos.

      Para obtener más información sobre los modelos disponibles y cómo acceder a ellos en Amazon Bedrock, consulte [Acceso a los modelos fundacionales de Amazon Bedrock](model-access.md).

   1. (Opcional) Para cambiar la configuración de inferencia, elija **actualizar**.

      Al cambiar la configuración de inferencia, se cambian las respuestas generadas por los modelos seleccionados. Para obtener más información sobre los parámetros de inferencia disponibles, consulte [Parámetros de solicitud de inferencia y campos de respuesta para los modelos fundacionales](model-parameters.md).

   1. **Tipo de tarea**: elija el tipo de tarea que desea que el modelo intente realizar durante el trabajo de evaluación de modelos.

   1. **Métricas y conjuntos de datos**: la lista de métricas disponibles y los conjuntos de datos de peticiones integrados cambian en función de la tarea que seleccione. Puede elegir de la lista de **Conjuntos de datos integrados disponibles** o puede elegir **Usar su propio conjunto de datos de peticiones**. Si decide utilizar su propio conjunto de datos de peticiones, introduzca el URI de S3 exacto de su archivo de conjunto de peticiones o seleccione **Explorar S3** para buscar el conjunto de datos de peticiones.

   1. **Resultados de la evaluación**: especifique el URI de S3 del directorio en el que desee guardar los resultados. Elija **Explorar S3** para buscar una ubicación en Amazon S3.

   1. (Opcional) Para habilitar el uso de una clave administrada por el cliente, seleccione **Personalizar configuración de cifrado (avanzada)**. A continuación, introduzca el ARN de la clave de AWS KMS que desee utilizar.

   1. **Rol de IAM de Amazon Bedrock**: elija **Utilizar un rol existente** para usar el rol de servicio de IAM que ya tenga los permisos necesarios o elija **Crear un nuevo rol** para crear un nuevo rol de servicio de IAM.

1. A continuación, elija **Crear**.

Cuando el estado cambie a **Completado**, podrá ver la tarjeta del informe del trabajo.

------
#### [ SDK for Python ]

En el siguiente ejemplo se crea un trabajo de evaluación automática mediante Python.

```
import boto3
client = boto3.client('bedrock')

job_request = client.create_evaluation_job(
    jobName="api-auto-job-titan",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/role-name",
    inferenceConfig={
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
                    "inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"
                }

            }
        ]

    },
    outputDataConfig={
        "s3Uri":"s3://amzn-s3-demo-bucket-model-evaluations/outputs/"
    },
    evaluationConfig={
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "QuestionAndAnswer",
                    "dataset": {
                        "name": "Builtin.BoolQ"
                    },
                    "metricNames": [
                        "Builtin.Accuracy",
                        "Builtin.Robustness"
                    ]
                }
            ]
        }
    }
)

print(job_request)
```

------
#### [ AWS CLI ]

En el AWS CLI, puede utilizar el `help` comando para ver qué parámetros son obligatorios y qué parámetros son opcionales al especificarlos `create-evaluation-job` en el AWS CLI.

```
aws bedrock create-evaluation-job help
```

```
aws bedrock create-evaluation-job \
--job-name 'automatic-eval-job-cli-001' \
--role-arn 'arn:aws:iam::111122223333:role/role-name' \
--evaluation-config '{"automated": {"datasetMetricConfigs": [{"taskType": "QuestionAndAnswer","dataset": {"name": "Builtin.BoolQ"},"metricNames": ["Builtin.Accuracy","Builtin.Robustness"]}]}}' \
--inference-config '{"models": [{"bedrockModel": {"modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1","inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"}}]}' \
--output-data-config '{"s3Uri":"s3://automatic-eval-jobs/outputs"}'
```

------

# Enumeración de los trabajos de evaluación automática de modelos en Amazon Bedrock
<a name="model-evaluation-jobs-management-list"></a>

Puede mostrar o buscar todos los trabajos de evaluación automática de modelos que ya haya creado mediante la AWS CLI o un AWS SDK compatible. En la consola de Amazon Bedrock, también puede ver una tabla que contiene sus trabajos de evaluación de modelos actuales.

En los siguientes ejemplos se muestra cómo encontrar los trabajos de evaluación de modelos con la Consola de administración de AWS, la AWS CLI y el SDK para Python.

------
#### [ Amazon Bedrock console ]

1. Abra la consola de Amazon Bedrock: [https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. En el panel de navegación, elija **Evaluación de modelo**.

1. En la tarjeta **Trabajos de evaluación de modelos**, encontrará una tabla con los trabajos de evaluación de modelos que ya ha creado.

------
#### [ AWS CLI ]

En la AWS CLI, puede utilizar el comando `help` para ver los parámetros obligatorios y qué parámetros son opcionales cuando se utiliza `list-evaluation-jobs`.

```
aws bedrock list-evaluation-jobs help
```

A continuación, se muestra un ejemplo del uso de `list-evaluation-jobs` y la especificación de que se devuelvan un máximo de cinco trabajos. De forma predeterminada, los trabajos se devuelven en orden descendente desde el momento en que se iniciaron.

```
aws bedrock list-evaluation-jobs --max-items 5
```

------
#### [ SDK for Python ]

En los siguientes ejemplos se muestra cómo utilizar el AWS SDK para Python para buscar un trabajo de evaluación del modelo que ha creado previamente. 

```
import boto3
client = boto3.client('bedrock')

job_request = client.list_evaluation_jobs(maxResults=20)

print (job_request)
```

------

# Detención de un trabajo de evaluación del modelo en Amazon Bedrock
<a name="model-evaluation-jobs-management-stop"></a>

Puede detener un trabajo de evaluación de modelos que se esté procesando actualmente mediante la Consola de administración de AWS, la AWS CLI o un AWS SDK compatible.

En los siguientes ejemplos se muestra cómo detener un trabajo de evaluación del modelo con la Consola de administración de AWS, la AWS CLI y el SDK de Python.

------
#### [ Amazon Bedrock console ]

En el siguiente ejemplo se muestra cómo detener un trabajo de evaluación del modelo con la Consola de administración de AWS.

1. Abra la consola de Amazon Bedrock: [https://console.aws.amazon.com/bedrock/home](https://console.aws.amazon.com/bedrock/home)

1. En el panel de navegación, elija **Evaluación de modelo**.

1. En la tarjeta **Trabajos de evaluación de modelos**, encontrará una tabla con los trabajos de evaluación de modelos que ya ha creado.

1. Seleccione el botón de opción situado junto al nombre del trabajo.

1. A continuación, elija **Detener la evaluación**.

------
#### [ SDK for Python ]

En los siguientes ejemplos se muestra cómo detener un trabajo de evaluación del modelo con el SDK para Python.

```
import boto3
client = boto3.client('bedrock')
response = client.stop_evaluation_job(
	## The ARN of the model evaluation job you want to stop.
	jobIdentifier='arn:aws:bedrock:us-west-2:444455556666:evaluation-job/fxaqujhttcza'
)

print(response)
```

------
#### [ AWS CLI ]

En la AWS CLI, puede utilizar el comando `help` para ver qué parámetros son necesarios y qué parámetros son opcionales al especificar `add-something` en la AWS CLI.

```
aws bedrock create-evaluation-job help
```

En el siguiente ejemplo se muestra cómo detener un trabajo de evaluación del modelo con la AWS CLI.

```
aws bedrock stop-evaluation-job --job-identifier arn:aws:bedrock:us-west-2:444455556666:evaluation-job/fxaqujhttcza
```

------

# Eliminación de un trabajo de evaluación del modelo en Amazon Bedrock
<a name="model-evaluation-jobs-management-delete"></a>

Puede eliminar un trabajo de evaluación del modelo mediante la consola de Amazon Bedrock o mediante la operación [BatchDeleteEvaluationJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_BatchDeleteEvaluationJob.html) con la AWS CLI o el AWS SDK compatible. 

Para poder eliminar un trabajo de evaluación del modelo, el estado del trabajo debe ser `FAILED`, `COMPLETED` o `STOPPED`. Puede obtener el estado actual de un trabajo desde la consola de Amazon Bedrock o llamando a [ListEvaluationJobs](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_ListEvaluationJobs.html). Para obtener más información, consulte [Enumeración de los trabajos de evaluación automática de modelos en Amazon BedrockEnumeración de los trabajos de evaluación de modelos con intervención humana en Amazon Bedrock](model-evaluation-jobs-management-list.md). 

Puede eliminar hasta 25 trabajos de evaluación del modelo a la vez con la consola y con la operación `BatchDeleteEvaluationJob`. Si necesita eliminar más trabajos, repita el procedimiento de la consola o llame a `BatchDeleteEvaluationJob`.

Si elimina un trabajo de evaluación del modelo con la operación `BatchDeleteEvaluationJob`, necesitará los nombres de recursos de Amazon (ARN) de los modelos que desee eliminar. Para obtener más información sobre cómo obtener el ARN de un modelo, consulte [Enumeración de los trabajos de evaluación automática de modelos en Amazon BedrockEnumeración de los trabajos de evaluación de modelos con intervención humana en Amazon Bedrock](model-evaluation-jobs-management-list.md). 

Al eliminar un trabajo de evaluación de modelos, se eliminan todos los recursos de Amazon Bedrock y Amazon SageMaker AI. Todos los trabajos de evaluación de modelos guardados en los buckets de Amazon S3 se conservan sin cambios. Además, en el caso de los trabajos de evaluación de modelos con intervención humana, al eliminar un trabajo de evaluación del modelo no se eliminará a la persona o el equipo de trabajo que haya configurado en Amazon Cognito o SageMaker AI.

Consulte las siguientes secciones para ver ejemplos de cómo eliminar un trabajo de evaluación del modelo.

------
#### [ Amazon Bedrock console ]

Utilice el siguiente procedimiento para eliminar un trabajo de evaluación del modelo en la consola de Amazon Bedrock. Para completar este procedimiento correctamente, asegúrese de que el usuario, grupo o rol de IAM tiene los permisos necesarios para acceder a la consola. Para obtener más información, consulte [Permisos de la consola necesarios para crear un trabajo automático de evaluación del modelo](model-evaluation-type-automatic.md#base-for-automatic).

**Eliminación de varios trabajos de evaluación de modelos**

1. Abra la consola de Amazon Bedrock: [https://console.aws.amazon.com/bedrock](https://console.aws.amazon.com/bedrock/)

1. En el panel de navegación, elija **Evaluación de modelo**.

1. En la tarjeta **Trabajos de evaluación de modelos**, utilice la tabla para buscar los trabajos de evaluación de modelos que desee eliminar y selecciónelos mediante la casilla de verificación situada junto al nombre del trabajo. Puede seleccionar un máximo de 25 trabajos.

1. Seleccione **Eliminar** para eliminar los trabajos de evaluación del modelo.

1. Si tiene que eliminar más trabajos de evaluación del modelo, repita los pasos 3 y 4.

------
#### [ AWS CLI ]

En la AWS CLI, puede utilizar el comando `help` para ver los parámetros obligatorios y qué parámetros son opcionales cuando se utiliza `batch-delete-evaluation-job`.

```
aws bedrock batch-delete-evaluation-job help
```

A continuación, se muestra un ejemplo del uso de `batch-delete-evaluation-job` y la especificación de la eliminación de dos trabajos de evaluación del modelo. Utilice el parámetro `job-identifiers` para especificar una lista de ARN para los trabajos de evaluación del modelo que desee eliminar. Puede eliminar hasta 25 trabajos de evaluación del modelo en una sola llamada a `batch-delete-evaluation-job`. Si necesita eliminar más trabajos, haga más llamadas a `batch-delete-evaluation-job`.

```
aws bedrock batch-delete-evaluation-job \
--job-identifiers arn:aws:bedrock:us-east-1:111122223333:evaluation-job/rmqp8zg80rvg arn:aws:bedrock:us-east-1:111122223333:evaluation-job/xmfp9zg204fdk
```

Después de enviarlo, obtendrá la siguiente respuesta.

```
{
	"evaluationJobs": [
		{
			"jobIdentifier": "rmqp8zg80rvg",
			"jobStatus": "Deleting"
		},
		{
			"jobIdentifier": "xmfp9zg204fdk",
			"jobStatus": "Deleting"
		}

	],
	"errors": []
}
```

------
#### [ SDK for Python ]

En los siguientes ejemplos se muestra cómo utilizar el AWS SDK para Python para eliminar un trabajo de evaluación del modelo. Utilice el parámetro `jobIdentifiers` para especificar una lista de ARN para los trabajos de evaluación del modelo que desee eliminar. Puede eliminar hasta 25 trabajos de evaluación del modelo en una sola llamada a `BatchDeleteEvaluationJob`. Si necesita eliminar más trabajos, haga más llamadas a `BatchDeleteEvaluationJob`.

```
import boto3
client = boto3.client('bedrock')

job_request = client.batch_delete_model_evaluation_job(jobIdentifiers=["arn:aws:bedrock:us-east-1:111122223333:evaluation-job/rmqp8zg80rvg", "arn:aws:bedrock:us-east-1:111122223333:evaluation-job/xmfp9zg204fdk"])

print (job_request)
```

------