Detalles del agente: evaluaciones
Las evaluaciones proporcionan métricas de supervisión continua de la calidad para agentes de IA. Puede utilizar la información proporcionada por el panel para evaluar el rendimiento, la calidad y la fiabilidad de los agentes de IA.
En lugar de basarse en casos de prueba simulados, las evaluaciones capturan las sesiones reales de usuarios y las interacciones de los agentes, lo que proporciona una visión completa del rendimiento de los agentes, desde la entrada hasta la salida final. Con las evaluaciones de los agentes, puede definir reglas de muestreo para evaluar solo un porcentaje de las sesiones o rastros y, a continuación, aplicar una variedad de evaluadores para evaluar y puntuar el rendimiento operativo de un agente de IA. Las evaluaciones y puntuaciones resultantes se muestran en el panel Evaluaciones, lo que le permite supervisar las tendencias, identificar posibles problemas de calidad, configurar alarmas e investigar y diagnosticar posibles problemas.
El panel Evaluaciones muestra todas las evaluaciones que se han activado y configurado para el agente seleccionado. Para obtener más información sobre la configuración de las evaluaciones para un agente, consulte Evaluaciones de AgentCore. Puede ampliar cada evaluación para ver las sesiones, los rastros y los periodos que se evaluaron.
Detalles de las evaluaciones
Para cada evaluación, el panel incluye las siguientes secciones:
Gráficos de evaluaciones
El panel Evaluaciones también incluye un gráfico de barras para cada evaluador. Los gráficos muestran las tendencias de cada evaluador a lo largo del tiempo y permiten configurar alarmas para valores métricos específicos. Para configurar una alarma, haga clic en una barra del gráfico y, a continuación, elija el icono de alarma (campana). Para obtener más información, consulte Uso de las alarmas de Amazon CloudWatch.
Uso de los resultados de evaluaciones
Si necesita acceso directo a los datos de los resultados de evaluaciones, o si desea crear visualizaciones personalizadas o trabajar fuera de la consola de Evaluaciones de AgentCore, puede acceder a los resultados de evaluaciones directamente a través de los paneles de Registros de CloudWatch, Métricas de CloudWatch y CloudWatch.
Temas
Acceso a los resultados de evaluaciones en Resultados de CloudWatch
Los resultados de evaluaciones se publican automáticamente en Registros de CloudWatch en formato de métricas integradas (EMF).
Buscar el grupo de registro de resultados de evaluaciones
-
Abra la consola de CloudWatch.
-
En el panel de navegación, elija Administración de registros > Grupos de registro.
-
Busque los grupos de registro con el prefijo
/aws/bedrock-agentcore/evaluations/o navegue por ellos. -
Dentro de este grupo de registro, los eventos de registro contienen los resultados de evaluaciones.
Para obtener más información sobre cómo trabajar con grupos de registros y consultar datos de registro, consulte Uso de grupos de registro y flujos de registro y Análisis de datos de registros con Información de registros de CloudWatch.
Acceso a las métricas de evaluaciones en Métricas de CloudWatch
Las métricas de los resultados de evaluaciones se extraen automáticamente de los registros en formato de métricas integradas (EMF) y se publican en Métricas de CloudWatch.
Buscar métricas de evaluaciones
-
Abra la consola de CloudWatch.
-
En el panel de navegación, elija Métricas > Todas las métricas.
-
Seleccione el espacio de nombres Bedrock AgentCore/Evaluations.
-
Explore las métricas disponibles por dimensiones.
Para obtener más información sobre cómo ver las métricas y trabajar con ellas, consulte Uso de métricas de CloudWatch y Representación gráfica de las métricas.
Creación de paneles personalizados
Puede crear paneles personalizados para visualizar las métricas de evaluaciones junto con otras métricas operativas.
Creación de un panel con métricas de evaluaciones
-
En la consola de CloudWatch, elija Paneles en el panel de navegación.
-
Elija Crear panel.
-
Agregue widgets y seleccione métricas del espacio de nombres Bedrock AgentCore/Evaluations
-
Personalice el intervalo de tiempo, la estadística y el tipo de visualización según sus necesidades.
Para obtener instrucciones detalladas, consulte Creación de un panel de CloudWatch personalizado y Uso de paneles de CloudWatch.
Configuración de alarmas en métricas de evaluaciones
Puede configurar alarmas para recibir notificaciones cuando las métricas de evaluaciones superen los umbrales que haya especificado; por ejemplo, cuando la corrección sea inferior a los niveles aceptables.
Creación de una alarma en métricas de evaluaciones
-
En la consola de CloudWatch, elija Alarmas > Todas las alarmas.
-
Elija Crear alarma.
-
Elija Seleccionar métrica y navegue hasta el espacio de nombres Bedrock AgentCore/Evaluations.
-
Seleccione la métrica que quiere supervisar.
-
Configure las condiciones del umbral (el umbral de detección dinámica de anomalías está disponible cuando no es necesario especificar ningún umbral numérico estático) y las acciones de notificación.
Para obtener instrucciones detalladas, consulte Uso de alarmas de CloudWatch y Cree una alarma de CloudWatch basada en un umbral estático.