Evaluación del rendimiento de los recursos de Amazon Bedrock - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Evaluación del rendimiento de los recursos de Amazon Bedrock

Utilice las evaluaciones de Amazon Bedrock para evaluar el rendimiento y la eficacia de los modelos y las bases de conocimiento de Amazon Bedrock, así como de los modelos y los orígenes de generación aumentada por recuperación (RAG) ajenos a Amazon Bedrock. Amazon Bedrock puede calcular las métricas de rendimiento, como la solidez semántica de un modelo y la exactitud de una base de conocimiento al recuperar información y generar respuestas. Para las evaluaciones de modelos, también puede recurrir a un equipo de personas para que puntúen y aporten su opinión para la evaluación.

Las evaluaciones automáticas, incluidas las que utilizan modelos de lenguaje de gran tamaño (LLM), generan puntuaciones y métricas calculadas que ayudan a evaluar la eficacia de un modelo y base de conocimiento. Las evaluaciones realizadas por personas las realiza un equipo de personas que proporcionan sus calificaciones y preferencias en relación con determinadas métricas.

Descripción general: trabajos de evaluación de modelos automáticos

Los trabajos de evaluación de modelos automáticos permiten evaluar rápidamente la capacidad de un modelo para realizar una tarea. Puede proporcionar su propio conjunto de datos de peticiones personalizado que haya adaptado a un caso de uso específico, o puede usar un conjunto de datos integrado disponible.

Descripción general: trabajos de evaluación de modelos con trabajadores humanos

Los trabajos de evaluación de modelos en los que intervienen trabajadores humanos le permiten incorporar la perspectiva humana al proceso de evaluación de modelos. Puede tratarse de trabajadores de su empresa o un grupo de expertos en áreas específicas de su sector.

Descripción general: trabajos de evaluación de modelos que utilizan un modelo de juez

Los trabajos de evaluación de modelos que utilizan un modelo de juez permiten evaluar rápidamente las respuestas de un modelo mediante el uso de un segundo LLM. El segundo LLM puntúa la respuesta y proporciona una explicación para cada respuesta.

Descripción general de las evaluaciones de RAG que utilizan modelos de lenguaje de gran tamaño (LLM)

Las evaluaciones basadas en LLM calculan las métricas de rendimiento de la base de conocimiento. Las métricas revelan si un origen de RAG o base de conocimiento de Amazon Bedrock son capaces de recuperar información sumamente relevante y generar respuestas útiles y adecuadas. Usted proporciona un conjunto de datos que contiene las peticiones o consultas de los usuarios para evaluar la forma en que una base de conocimiento recupera la información y genera respuestas para esas consultas. El conjunto de datos también debe incluir datos de referencia o los textos y respuestas esperados recuperados para las consultas, de modo que la evaluación pueda comprobar si la base de conocimiento funciona como debería.

Utilice el tema siguiente para obtener más información sobre cómo crear su primer trabajo de evaluación de modelos.

Los trabajos de evaluación de modelos admiten el uso de los siguientes tipos de modelos de Amazon Bedrock:

  • Modelos fundacionales

  • Modelos de Amazon Bedrock Marketplace

  • Modelos fundacionales personalizados

  • Modelos fundacionales importados

  • Enrutadores de peticiones

  • Modelos para los que ha adquirido rendimiento aprovisionado