Requisitos para crear conjuntos de datos de peticiones personalizados para un trabajo de evaluación de modelos con intervención humana - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Requisitos para crear conjuntos de datos de peticiones personalizados para un trabajo de evaluación de modelos con intervención humana

Para crear un trabajo de evaluación del modelos con intervención humana, debe usar un conjunto de datos de peticiones personalizado. Estas peticiones se utilizan luego durante la inferencia con los modelos que seleccione para su evaluación.

Si desea evaluar modelos que no son de Amazon Bedrock mediante respuestas que ya ha generado, inclúyalos en el conjunto de datos de peticiones tal y como se describe en Realización de un trabajo de evaluación mediante sus propios datos de respuesta de inferencia. Cuando proporciona sus propios datos de respuesta de inferencia, Amazon Bedrock omite el paso de invocación del modelo y realiza el trabajo de evaluación con los datos que proporciona.

Los conjuntos de datos de peticiones personalizados deben almacenarse en Amazon S3 y utilizar el formato de línea JSON y la extensión de archivo .jsonl. Cada línea debe ser un objeto JSON válido. Puede haber hasta 1000 peticiones en el conjunto de datos por trabajo de evaluación automática.

Para los trabajos creados con la consola, debe actualizar la configuración de uso compartido de recursos entre orígenes (CORS) en el bucket de S3. Para obtener más información sobre los permisos de CORS necesarios, consulte Permisos de uso compartido de recursos entre orígenes (CORS) requeridos en buckets de S3.

Realización de un trabajo de evaluación en el que Amazon Bedrock invoque un modelo por usted

Para ejecutar un trabajo de evaluación en el que Amazon Bedrock invoque los modelos por usted, proporcione un conjunto de datos de peticiones que contenga los siguientes pares de clave-valor:

  • prompt: la petición a la que desea que respondan los modelos.

  • referenceResponse (opcional): una respuesta veraz a la que sus trabajadores pueden hacer referencia durante la evaluación.

  • category (opcional): una clave que puede utilizar para filtrar los resultados al revisarlos en la tarjeta del informe de evaluación del modelo.

En la interfaz de usuario del trabajador, lo que especifique para prompt y referenceResponse estará visible para los trabajadores humanos.

A continuación presentamos un ejemplo de conjunto de datos personalizado que contiene 6 entradas y utiliza el formato de línea JSON.

{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."} {"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}

El siguiente ejemplo es una entrada única expandida para mayor claridad. En el conjunto de datos de peticiones real, cada línea debe ser un objeto JSON válido.

{ "prompt": "What is high intensity interval training?", "category": "Fitness", "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods." }

Realización de un trabajo de evaluación mediante sus propios datos de respuesta de inferencia

Para ejecutar un trabajo de evaluación con las respuestas que ya ha generado, debe proporcionar un conjunto de datos de peticiones que contenga los siguientes pares de clave-valor:

  • prompt: la petición que utilizaron sus modelos para generar las respuestas.

  • referenceResponse (opcional): una respuesta veraz a la que sus trabajadores pueden hacer referencia durante la evaluación.

  • category (opcional): una clave que puede utilizar para filtrar los resultados al revisarlos en la tarjeta del informe de evaluación del modelo.

  • modelResponses: las respuestas de su propia inferencia que desee evaluar. Puede proporcionar una o dos entradas con las siguientes propiedades en la lista modelResponses.

    • response: una cadena que contiene la respuesta de la inferencia del modelo.

    • modelIdentifier: una cadena que identifica el modelo que generó las respuestas.

Cada línea del conjunto de datos de peticiones debe contener el mismo número de respuestas (una o dos). Además, debe especificar el mismo identificador o identificadores de modelo en cada línea y no puede usar más de dos valores únicos para modelIdentifier en un conjunto de datos.

A continuación, presentamos un ejemplo de conjunto de datos personalizado que contiene seis entradas y utiliza el formato de línea JSON.

{"prompt":"The prompt you used to generate the model responses","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your first model generated","modelIdentifier":"A string identifying your first model"},{"response":"The response your second model generated","modelIdentifier":"A string identifying your second model"}]} {"prompt":"The prompt you used to generate the model responses","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your first model generated","modelIdentifier":"A string identifying your first model"},{"response":"The response your second model generated","modelIdentifier":"A string identifying your second model"}]} {"prompt":"The prompt you used to generate the model responses","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your first model generated","modelIdentifier":"A string identifying your first model"},{"response":"The response your second model generated","modelIdentifier":"A string identifying your second model"}]} {"prompt":"The prompt you used to generate the model responses","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your first model generated","modelIdentifier":"A string identifying your first model"},{"response":"The response your second model generated","modelIdentifier":"A string identifying your second model"}]} {"prompt":"The prompt you used to generate the model responses","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your first model generated","modelIdentifier":"A string identifying your first model"},{"response":"The response your second model generated","modelIdentifier":"A string identifying your second model"}]} {"prompt":"The prompt you used to generate the model responses","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your first model generated","modelIdentifier":"A string identifying your first model"},{"response":"The response your second model generated","modelIdentifier":"A string identifying your second model"}]}

El siguiente ejemplo es una entrada única de un conjunto de datos de peticiones expandida para mayor claridad.

{ "prompt": "What is high intensity interval training?", "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods.", "category": "Fitness", "modelResponses": [ { "response": "High intensity interval training (HIIT) is a workout strategy that alternates between short bursts of intense, maximum-effort exercise and brief recovery periods, designed to maximize calorie burn and improve cardiovascular fitness.", "modelIdentifier": "Model1" }, { "response": "High-intensity interval training (HIIT) is a cardiovascular exercise strategy that alternates short bursts of intense, anaerobic exercise with less intense recovery periods, designed to maximize calorie burn, improve fitness, and boost metabolic rate.", "modelIdentifier": "Model2" } ] }