Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Creación de un trabajo de evaluación de modelos con un LLM como juez
Puede crear un trabajo de evaluación de modelos mediante el Consola de administración de AWSAWS CLI, o un AWS SDK compatible.
Este tipo de trabajo requiere el acceso a un modelo evaluador. Si está evaluando el rendimiento de un modelo de Amazon Bedrock, también necesita acceder a ese modelo. Ambos modelos deben estar disponibles en la misma Región de AWS. Para obtener una lista de los modelos generadores y evaluadores admitidos, consulte Modelos compatibles.
Requisitos previos
Además de tener acceso a al menos un modelo evaluador, para crear un trabajo de evaluación que utilice un LLM como juez, también necesita ciertos permisos de rol de servicio de IAM. Para obtener más información sobre las acciones necesarias y los requisitos de la política de confianza, consulte Permisos del rol de servicio necesarios para crear un trabajo de evaluación del modelos con un modelo de juez.
Al crear el trabajo, debe especificar un conjunto de datos de peticiones en un bucket de Amazon S3 y un bucket de salida en el que almacenar los resultados. Para asegurarse de que sus buckets de S3 tengan los permisos de CORS necesarios, consulte Permisos de uso compartido de recursos entre orígenes (CORS) requeridos en buckets de S3
Para crear un trabajo en la consola, la consola necesita permiso para realizar un conjunto determinado de acciones y tener acceso a los recursos necesarios. La siguiente política define un conjunto mínimo de permisos de IAM necesarios para crear un trabajo en la consola. En la política, recomendamos utilizar el elemento de política JSON de IAM Resource para limitar el acceso únicamente a los modelos y buckets necesarios para el usuario, grupo o rol de IAM.
La política de IAM debe conceder acceso a los modelos generadores y evaluadores.
nota
Esta política de ejemplo otorga permisos para todos los modelos fundacionales de Amazon Bedrock. En un entorno de producción, le recomendamos que siga el principio de privilegio mínimo y solo conceda permisos a los modelos que necesite.
Puede crear un trabajo de evaluación que utilice únicamente las métricas integradas de Amazon Bedrock o puede crear un trabajo que utilice sus propias métricas personalizadas. Para obtener instrucciones sobre la creación de trabajos de evaluación de modelos, consulte las siguientes secciones.