Evaluación del rendimiento de los recursos de Amazon Bedrock

Utilice las evaluaciones de Amazon Bedrock para evaluar el rendimiento y la eficacia de los modelos y las bases de conocimiento de Amazon Bedrock, así como de los modelos y los orígenes de generación aumentada por recuperación (RAG) ajenos a Amazon Bedrock. Amazon Bedrock puede calcular las métricas de rendimiento, como la solidez semántica de un modelo y la exactitud de una base de conocimiento al recuperar información y generar respuestas. Para las evaluaciones de modelos, también puede recurrir a un equipo de personas para que puntúen y aporten su opinión para la evaluación.

Las evaluaciones automáticas, incluidas las que utilizan modelos de lenguaje de gran tamaño (LLMs), producen puntuaciones y métricas calculadas que ayudan a evaluar la eficacia de un modelo y una base de conocimientos. Las evaluaciones realizadas por personas las realiza un equipo de personas que proporcionan sus calificaciones y preferencias en relación con determinadas métricas.

Descripción general: trabajos de evaluación de modelos programáticos

Los trabajos de evaluación programática de modelos permiten evaluar rápidamente la capacidad de un modelo para realizar una tarea. Puede proporcionar su propio conjunto de datos de peticiones personalizado que haya adaptado a un caso de uso específico, o puede usar un conjunto de datos integrado disponible.

Descripción general: trabajos de evaluación de modelos con trabajadores humanos

Los trabajos de evaluación de modelos en los que intervienen trabajadores humanos le permiten incorporar la perspectiva humana al proceso de evaluación de modelos. Puede tratarse de trabajadores de su empresa o un grupo de expertos en áreas específicas de su sector.

Descripción general: trabajos de evaluación de modelos que utilizan un modelo de juez

Los trabajos de evaluación de modelos que utilizan un modelo de juez permiten evaluar rápidamente las respuestas de un modelo mediante el uso de un segundo LLM. El segundo LLM puntúa la respuesta y proporciona una explicación para cada respuesta.

Descripción general de las evaluaciones de RAG que utilizan modelos de lenguaje de gran tamaño () LLMs

Las evaluaciones basadas en LLM calculan las métricas de rendimiento de la base de conocimiento. Las métricas revelan si un origen de RAG o base de conocimiento de Amazon Bedrock son capaces de recuperar información sumamente relevante y generar respuestas útiles y adecuadas. Usted proporciona un conjunto de datos que contiene las peticiones o consultas de los usuarios para evaluar la forma en que una base de conocimiento recupera la información y genera respuestas para esas consultas. El conjunto de datos también debe incluir datos de referencia o los textos y respuestas esperados recuperados para las consultas, de modo que la evaluación pueda comprobar si la base de conocimiento funciona como debería.

Utilice el tema siguiente para obtener más información sobre cómo crear su primer trabajo de evaluación de modelos.

Los trabajos de evaluación de modelos admiten el uso de los siguientes tipos de modelos de Amazon Bedrock:

Modelos fundacionales
Modelos de Amazon Bedrock Marketplace
Modelos fundacionales personalizados
Modelos fundacionales importados
Enrutadores de peticiones
Modelos para los que ha adquirido rendimiento aprovisionado

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Eliminación de una base de conocimientos

Regiones y modelos admitidos