Creación de un trabajo de evaluación de modelos con un LLM como juez

Puede crear un trabajo de evaluación de modelos mediante el Consola de administración de AWS AWS CLI, o un AWS SDK compatible.

Este tipo de trabajo requiere el acceso a un modelo evaluador. Si está evaluando el rendimiento de un modelo de Amazon Bedrock, también necesita acceder a ese modelo. Ambos modelos deben estar disponibles en la misma Región de AWS. Para obtener una lista de los modelos generadores y evaluadores admitidos, consulte Modelos compatibles.

Requisitos previos

Además de tener acceso a al menos un modelo evaluador, para crear un trabajo de evaluación que utilice un LLM como juez, también necesita ciertos permisos de rol de servicio de IAM. Para obtener más información sobre las acciones necesarias y los requisitos de la política de confianza, consulte Permisos del rol de servicio necesarios para crear un trabajo de evaluación del modelos con un modelo de juez.

Al crear el trabajo, debe especificar un conjunto de datos de peticiones en un bucket de Amazon S3 y un bucket de salida en el que almacenar los resultados. La configuración CORS no es necesaria para los trabajos LLM-as-a-judge de evaluación. Para los trabajos de evaluación realizados por personas, consulte Permisos de uso compartido de recursos entre orígenes (CORS) requeridos en buckets de S3

Para crear un trabajo en la consola, la consola necesita permiso para realizar un conjunto determinado de acciones y tener acceso a los recursos necesarios. La siguiente política define un conjunto mínimo de permisos de IAM necesarios para crear un trabajo en la consola. En la política, recomendamos utilizar el elemento de política JSON de IAM Resource para limitar el acceso únicamente a los modelos y buckets necesarios para el usuario, grupo o rol de IAM.

La política de IAM debe conceder acceso a los modelos generadores y evaluadores.

nota

Esta política de ejemplo otorga permisos para todos los modelos fundacionales de Amazon Bedrock. En un entorno de producción, le recomendamos que siga el principio de privilegio mínimo y solo conceda permisos a los modelos que necesite.

Puede crear un trabajo de evaluación que utilice únicamente las métricas integradas de Amazon Bedrock o puede crear un trabajo que utilice sus propias métricas personalizadas. Para obtener instrucciones sobre la creación de trabajos de evaluación de modelos, consulte las siguientes secciones.

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Peticiones de métricas personalizadas

Creación de un trabajo con métricas integradas