Detalles del agente: evaluaciones - Amazon CloudWatch

Detalles del agente: evaluaciones

Las evaluaciones proporcionan métricas de supervisión continua de la calidad para agentes de IA. Puede utilizar la información proporcionada por el panel para evaluar el rendimiento, la calidad y la fiabilidad de los agentes de IA.

En lugar de basarse en casos de prueba simulados, las evaluaciones capturan las sesiones reales de usuarios y las interacciones de los agentes, lo que proporciona una visión completa del rendimiento de los agentes, desde la entrada hasta la salida final. Con las evaluaciones de los agentes, puede definir reglas de muestreo para evaluar solo un porcentaje de las sesiones o rastros y, a continuación, aplicar una variedad de evaluadores para evaluar y puntuar el rendimiento operativo de un agente de IA. Las evaluaciones y puntuaciones resultantes se muestran en el panel Evaluaciones, lo que le permite supervisar las tendencias, identificar posibles problemas de calidad, configurar alarmas e investigar y diagnosticar posibles problemas.

El panel Evaluaciones muestra todas las evaluaciones que se han activado y configurado para el agente seleccionado. Para obtener más información sobre la configuración de las evaluaciones para un agente, consulte Evaluaciones de AgentCore. Puede ampliar cada evaluación para ver las sesiones, los rastros y los periodos que se evaluaron.

Evaluaciones

Detalles de las evaluaciones

Para cada evaluación, el panel incluye las siguientes secciones:

Evaluation configuration metrics

Proporciona métricas para la configuración de evaluación general. Un evaluador define cómo evaluar un aspecto específico del rendimiento de un agente de IA. Para ver más detalles sobre un evaluador, elija su nombre en la columna Evaluador. Para ver un gráfico de barras y analizar las tendencias de un evaluados, elija el valor en la columna Recuento.

Métricas de configuración de evaluación
Session evaluations

Proporciona los resultados de la evaluación a los evaluadores por sesión. Una sesión representa una agrupación lógica de interacciones relacionadas de un solo usuario o flujo de trabajo. Una sesión puede contener uno o más rastros. Puede elegir una sesión para filtrarla hasta ver la lista de rastros de esa sesión en la sección Evaluaciones de rastros.

Evaluaciones de sesiones
Trace evaluations

Proporciona los resultados de la evaluación a los evaluadores por rastro. Un rastro es un registro completo de la ejecución o solicitud de un solo agente. Un rastro puede contener uno o más intervalos. Elija una rastro para ver los detalles del rastro junto con todos los evaluadores que se ejecutaron en ese rastro.

Evaluaciones de rastros
Span evaluations

Proporciona los resultados de la evaluación a los evaluadores por intervalo. Un intervalo representa las operaciones individuales llevadas a cabo durante esa ejecución. Elija un intervalo para ver sus detalles junto con todas las operaciones llevadas a cabo durante ese intervalo.

Evaluaciones de intervalos

Gráficos de evaluaciones

El panel Evaluaciones también incluye un gráfico de barras para cada evaluador. Los gráficos muestran las tendencias de cada evaluador a lo largo del tiempo y permiten configurar alarmas para valores métricos específicos. Para configurar una alarma, haga clic en una barra del gráfico y, a continuación, elija el icono de alarma (campana). Para obtener más información, consulte Uso de las alarmas de Amazon CloudWatch.

Gráficos de evaluaciones

Uso de los resultados de evaluaciones

Si necesita acceso directo a los datos de los resultados de evaluaciones, o si desea crear visualizaciones personalizadas o trabajar fuera de la consola de Evaluaciones de AgentCore, puede acceder a los resultados de evaluaciones directamente a través de los paneles de Registros de CloudWatch, Métricas de CloudWatch y CloudWatch.

Acceso a los resultados de evaluaciones en Resultados de CloudWatch

Los resultados de evaluaciones se publican automáticamente en Registros de CloudWatch en formato de métricas integradas (EMF).

Buscar el grupo de registro de resultados de evaluaciones
  1. Abra la consola de CloudWatch.

  2. En el panel de navegación, elija Administración de registros > Grupos de registro.

  3. Busque los grupos de registro con el prefijo /aws/bedrock-agentcore/evaluations/ o navegue por ellos.

  4. Dentro de este grupo de registro, los eventos de registro contienen los resultados de evaluaciones.

Para obtener más información sobre cómo trabajar con grupos de registros y consultar datos de registro, consulte Uso de grupos de registro y flujos de registro y Análisis de datos de registros con Información de registros de CloudWatch.

Acceso a las métricas de evaluaciones en Métricas de CloudWatch

Las métricas de los resultados de evaluaciones se extraen automáticamente de los registros en formato de métricas integradas (EMF) y se publican en Métricas de CloudWatch.

Buscar métricas de evaluaciones
  1. Abra la consola de CloudWatch.

  2. En el panel de navegación, elija Métricas > Todas las métricas.

  3. Seleccione el espacio de nombres Bedrock AgentCore/Evaluations.

  4. Explore las métricas disponibles por dimensiones.

Para obtener más información sobre cómo ver las métricas y trabajar con ellas, consulte Uso de métricas de CloudWatch y Representación gráfica de las métricas.

Creación de paneles personalizados

Puede crear paneles personalizados para visualizar las métricas de evaluaciones junto con otras métricas operativas.

Creación de un panel con métricas de evaluaciones
  1. En la consola de CloudWatch, elija Paneles en el panel de navegación.

  2. Elija Crear panel.

  3. Agregue widgets y seleccione métricas del espacio de nombres Bedrock AgentCore/Evaluations

  4. Personalice el intervalo de tiempo, la estadística y el tipo de visualización según sus necesidades.

Para obtener instrucciones detalladas, consulte Creación de un panel de CloudWatch personalizado y Uso de paneles de CloudWatch.

Configuración de alarmas en métricas de evaluaciones

Puede configurar alarmas para recibir notificaciones cuando las métricas de evaluaciones superen los umbrales que haya especificado; por ejemplo, cuando la corrección sea inferior a los niveles aceptables.

Creación de una alarma en métricas de evaluaciones
  1. En la consola de CloudWatch, elija Alarmas > Todas las alarmas.

  2. Elija Crear alarma.

  3. Elija Seleccionar métrica y navegue hasta el espacio de nombres Bedrock AgentCore/Evaluations.

  4. Seleccione la métrica que quiere supervisar.

  5. Configure las condiciones del umbral (el umbral de detección dinámica de anomalías está disponible cuando no es necesario especificar ningún umbral numérico estático) y las acciones de notificación.

Para obtener instrucciones detalladas, consulte Uso de alarmas de CloudWatch y Cree una alarma de CloudWatch basada en un umbral estático.

Recursos adicionales