Evalúe el rendimiento del modelo utilizando otro LLM como juez - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Evalúe el rendimiento del modelo utilizando otro LLM como juez

Con un trabajo de evaluación de modelos que utiliza un modelo de juez, Amazon Bedrock utiliza un LLM para puntuar las respuestas de otro modelo y proporcionar una explicación de cómo puntuó cada par de preguntas y respuestas. Las puntuaciones y las explicaciones están disponibles en la consola de Amazon Bedrock a través de la página de evaluaciones.

Este tipo de evaluación de modelos requiere dos modelos diferentes, un modelo generador y un modelo evaluador. Usted define las solicitudes para el modelo generador en un conjunto de datos y el modelo evaluador puntúa las respuestas a esas solicitudes en función de las métricas que seleccione.

La tarjeta de resumen de métricas de la consola muestra un histograma que muestra el número de veces que una respuesta recibió una puntuación determinada y las explicaciones de la puntuación de las cinco primeras solicitudes que se encuentran en el conjunto de datos. El informe completo del trabajo de evaluación está disponible en el bucket de Amazon S3 que especifique al crear el trabajo de evaluación del modelo.

Al crear el trabajo de evaluación del modelo, puede seleccionar un modelo de Amazon Bedrock como modelo generador o puede evaluar un modelo que no sea de Amazon Bedrock proporcionando sus propios datos de respuesta a la inferencia en el conjunto de datos de solicitudes. Si proporciona sus propios datos de respuesta, Amazon Bedrock omite el paso de invocación del modelo y evalúa directamente los datos que proporciona.

Para calificar las respuestas de los modelos de generadores, Amazon Bedrock proporciona un conjunto de métricas integradas entre las que puede seleccionar. Cada métrica utiliza un indicador diferente para el modelo de evaluador. También puede definir sus propias métricas personalizadas para su modelo de negocio concreto. Consulte Utilice métricas para comprender el rendimiento del modelo para obtener más información.

Modelos compatibles

Modelos de evaluación compatibles (métricas integradas)

Para crear un trabajo de evaluación que utilice un máster como juez con las métricas integradas de Amazon Bedrock, necesita acceder al menos a uno de los modelos de jueces de la siguiente lista. Para obtener más información sobre cómo acceder a los modelos y la disponibilidad regional, consulte. Acceso a los modelos fundacionales de Amazon Bedrock

  • Amazon Nova Pro – amazon.nova-pro-v1:0

  • AnthropicClaude 3.5 Sonnetv1 — anthropic.claude-3-5-sonnet-20240620-v1:0

  • AnthropicClaude 3.5 Sonnetv2 — anthropic.claude-3-5-sonnet-20241022-v2:0

  • Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0

  • Anthropic Claude 3 Haiku – anthropic.claude-3-haiku-20240307-v1:0

  • Anthropic Claude 3.5 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0

  • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

  • Mistral Large – mistral.mistral-large-2402-v1:0

Los perfiles de inferencia entre regiones son compatibles con los modelos enumerados. Para obtener más información, consulte Perfiles de inferencia interregional compatibles.

Modelos de evaluación compatibles (métricas personalizadas)

Para crear un trabajo de evaluación que utilice a un máster como juez con métricas personalizadas, necesita acceder al menos a uno de los modelos de jueces de la siguiente lista.

  • Mistral Large24.02 — mistral.mistral-large-2402-v1:0

  • Mistral Large24.07 — mistral.mistral-large-2407-v1:0

  • AnthropicClaude 3.5 Sonnetv1 — anthropic.claude-3-5-sonnet-20240620-v1:0

  • AnthropicClaude 3.5 Sonnetv2 — anthropic.claude-3-5-sonnet-20241022-v2:0

  • Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0

  • AnthropicClaude 3 Haiku3 — anthropic.claude-3-haiku-20240307-v1:0

  • AnthropicClaude 3 Haiku3.5 — anthropic.claude-3-5-haiku-20241022-v1:0

  • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

  • Meta Llama 3.3 70B Instruct – meta.llama3-3-70b-instruct-v1:0

  • Amazon Nova Pro – amazon.nova-pro-v1:0

Los perfiles de inferencia entre regiones son compatibles con los modelos enumerados. Para obtener más información, consulte Perfiles de inferencia interregional compatibles.

Modelos de generadores compatibles

Puede utilizar los siguientes tipos de modelos en Amazon Bedrock como modelo generador en un trabajo de evaluación. También puede traer sus propios datos de respuesta a inferencias de modelos que no sean de Amazon Bedrock.