Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Evaluación del rendimiento del modelo utilizando otro LLM como juez
Con un trabajo de evaluación de modelos que utilice un modelo de juez, Amazon Bedrock usa un LLM para puntuar las respuestas de otro modelo y proporcionar una explicación de cómo puntuó cada par de petición y respuesta. Las puntuaciones y las explicaciones están disponibles en la consola de Amazon Bedrock a través de la página Evaluaciones
Este tipo de evaluación de modelos requiere dos modelos diferentes, un modelo generador y un modelo evaluador. Las peticiones del modelo generador se definen en un conjunto de datos y el modelo evaluador puntúa las respuestas a esas peticiones en función de las métricas que seleccione.
La tarjeta de resumen de métricas de la consola muestra un histograma con el número de veces que una respuesta recibió una puntuación determinada y las explicaciones de la puntuación de las cinco primeras peticiones encontradas en el conjunto de datos. El informe de trabajo de evaluación completo está disponible en el bucket de Amazon S3 que haya especificado al crear el trabajo de evaluación del modelo.
Al crear el trabajo de evaluación del modelo, puede seleccionar un modelo de Amazon Bedrock como modelo generador o puede evaluar un modelo que no sea de Amazon Bedrock proporcionando sus propios datos de respuesta de inferencia en el conjunto de datos de peticiones. Si proporciona sus propios datos de respuesta, Amazon Bedrock omite el paso de invocación del modelo y evalúa directamente los datos que proporciona.
Para puntuar las respuestas de los modelos generadores, Amazon Bedrock proporciona un conjunto de métricas integradas que puede seleccionar. Cada métrica utiliza una petición diferente para el modelo evaluador. También puede definir sus propias métricas personalizadas para su caso de negocio concreto. Consulte Uso de métricas para conocer el rendimiento del modelo para obtener más información.
Modelos compatibles
Modelos evaluadores compatibles (métricas integradas)
Para crear un trabajo de evaluación en el que se utilice un LLM como juez con las métricas integradas de Amazon Bedrock, necesita acceder al menos a uno de los modelos de juez de la siguiente lista. Para obtener más información sobre cómo acceder a los modelos y la disponibilidad de las regiones, consulte Acceso a los modelos fundacionales de Amazon Bedrock.
-
Amazon Nova Pro –
amazon.nova-pro-v1:0 -
Anthropic Claude 3.5 Sonnet v1 –
anthropic.claude-3-5-sonnet-20240620-v1:0 -
Anthropic Claude 3.5 Sonnet v2 –
anthropic.claude-3-5-sonnet-20241022-v2:0 -
Anthropic Claude 3.7 Sonnet –
anthropic.claude-3-7-sonnet-20250219-v1:0 -
Anthropic Claude 3 Haiku –
anthropic.claude-3-haiku-20240307-v1:0 -
Anthropic Claude 3.5 Haiku –
anthropic.claude-3-5-haiku-20241022-v1:0 -
Meta Llama 3.1 70B Instruct –
meta.llama3-1-70b-instruct-v1:0 -
Mistral Large –
mistral.mistral-large-2402-v1:0
Los perfiles de inferencia entre regiones son compatibles con los modelos de la lista. Para obtener más información, consulte Perfiles de inferencia entre regiones admitidos.
Modelos evaluadores compatibles (métricas personalizadas)
Para crear un trabajo de evaluación en el que se utilice un LLM como juez con métricas personalizadas, necesita acceder al menos a uno de los modelos de juez de la siguiente lista.
-
Mistral Large 24.02 –
mistral.mistral-large-2402-v1:0 -
Mistral Large 24.07 –
mistral.mistral-large-2407-v1:0 -
Anthropic Claude 3.5 Sonnet v1 –
anthropic.claude-3-5-sonnet-20240620-v1:0 -
Anthropic Claude 3.5 Sonnet v2 –
anthropic.claude-3-5-sonnet-20241022-v2:0 -
Anthropic Claude 3.7 Sonnet –
anthropic.claude-3-7-sonnet-20250219-v1:0 -
Anthropic Claude 3 Haiku 3 –
anthropic.claude-3-haiku-20240307-v1:0 -
Anthropic Claude 3 Haiku 3.5 –
anthropic.claude-3-5-haiku-20241022-v1:0 -
Meta Llama 3.1 70B Instruct –
meta.llama3-1-70b-instruct-v1:0 -
Meta Llama 3.3 70B Instruct –
meta.llama3-3-70b-instruct-v1:0 -
Amazon Nova Pro –
amazon.nova-pro-v1:0
Los perfiles de inferencia entre regiones son compatibles con los modelos de la lista. Para obtener más información, consulte Perfiles de inferencia entre regiones admitidos.
Modelos generadores compatibles
Puede utilizar los siguientes tipos de modelos en Amazon Bedrock como el modelo generador en un trabajo de evaluación. También puede incorporar sus propios datos de respuesta de inferencia de modelos que no son de Amazon Bedrock.
-
Modelos fundacionales: Información del modelo fundacional de Amazon Bedrock
-
Modelos de Amazon Bedrock Marketplace: Amazon Bedrock Marketplace
-
Modelos fundacionales personalizados: Personalización del modelo para mejorar su rendimiento según su caso de uso
-
Modelos fundacionales importados: Uso de la importación de modelos personalizados para importar un modelo de código abierto personalizado a Amazon Bedrock
-
Enrutadores de peticiones: Enrutamiento de peticiones inteligente en Amazon Bedrock
-
Modelos para los que ha adquirido rendimiento aprovisionado: Aumento de la capacidad de invocación de modelos con el rendimiento aprovisionado en Amazon Bedrock