Detalhes do agente: avaliações - Amazon CloudWatch

Detalhes do agente: avaliações

As avaliações fornecem métricas de monitoramento contínuo de qualidade aos agentes de IA. Você pode usar as informações do painel para avaliar a performance, a qualidade e a confiabilidade dos agentes de IA.

Em vez de se basear de casos de teste simulados, as avaliações capturam sessões do usuário e interações do agente reais, fornecendo uma visão abrangente da performance do agente, do início ao fim da interação. Com avaliações do agente, você pode definir regras de amostragem para avaliar apenas uma porcentagem das sessões ou dos rastros e depois aplicar vários avaliadores para analisar e pontuar a performance operacional de um agente de IA. As avaliações e pontuações resultantes são exibidas no painel Avaliações, permitindo que você monitore tendências, identifique possíveis problemas de qualidade, defina alarmes. investigue e diagnostique possíveis problemas.

O painel Avaliações lista todas as avaliações habilitadas e configuradas para o agente selecionado. Para saber mais sobre a configurações de avaliações para um agente, consulte Avaliações do AgentCore. Você pode expandir cada avaliação para visualizar as sessões, os rastros e os intervalos avaliados.

Avaliações

Detalhes das avaliações

Para cada avaliação, o painel inclui as seguintes seções:

Evaluation configuration metrics

Fornece métricas para a configuração da avaliação em geral. O avaliador define como avaliar um aspecto específico da performance de um agente de IA. Para visualizar mais detalhes sobre um avaliador, escolha seu nome na coluna Avaliador. Para visualizar um gráfico de barras e analisar tendências para um avaliador, escolha o valor na coluna Contagem.

Métricas da configuração da avaliação
Session evaluations

Fornece os resultados da avaliação aos avaliadores ao nível da sessão. Uma sessão representa um agrupamento lógico de interações relacionadas de um único usuário ou fluxo de trabalho. Uma sessão pode conter um ou mais rastros. Na seção Rastrear avaliações, escolha uma sessão para filtrar as avaliações a fim de obter a lista dos rastros dentro dessa sessão.

Avaliações de sessões
Trace evaluations

Fornece aos avaliadores resultados das avaliações ao nível do rastro. Um rastro é um registro completo de uma única execução ou solicitação de agente. Um rastro pode conter um ou mais intervalos. Escolha um rastro para visualizar seus detalhes e todos os avaliadores nele executados.

Avaliações de rastros
Span evaluations

Fornece aos avaliadores resultados das avaliações ao nível do intervalo. Um intervalo representa as operações individuais realizadas durante aquela execução. Escolha um intervalo para visualizar os detalhes e todas as realizadas durante esse intervalo.

Avaliações de intervalos

Gráficos de avaliações

O painel Avaliações também inclui um gráfico de barras para cada avaliador. Os gráficos mostram as tendências de cada avaliador ao longo do tempo e permitem definir alarmes para determinados valores de métricas. Para definir um alarme, clique em uma barra do gráfico e escolha o ícone Alarme (campainha). Para saber mais, consulte Usar alarmes do Amazon CloudWatch.

Gráficos de avaliações

Trabalhar com resultados de avaliações

Se precisar de acesso direto aos dados dos resultados da avaliação ou se quiser criar visualizações personalizadas ou trabalhar fora do console do AgentCore Evaluations, acesse os resultados da avaliação diretamente nos painéis do CloudWatch Logs, CloudWatch Metrics e CloudWatch.

Acessar resultados de avaliações no CloudWatch Logs

Os resultados das avaliações são publicados automaticamente no CloudWatch Logs em EMF (Embedded Metric Format).

Para encontrar seu grupo de logs de resultados de avaliações
  1. Abra o console do CloudWatch.

  2. No painel de navegação, escolha Gerenciamento de logs > Grupos de logs.

  3. Pesquise ou navegue até os grupos de logs com o prefixo:/aws/bedrock-agentcore/evaluations/.

  4. Dentro desse grupo de logs, os eventos de logs contêm os resultados das avaliações.

Para saber mais sobre como trabalhar com grupos de logs e consultar dados de log, consulte Trabalhar com grupos de logs e fluxos de logs e Analisar dados de logs com o CloudWatch Logs Insights.

Acessar métricas de avaliação no CloudWatch Metrics

As métricas dos resultados das avaliações são extraídas automaticamente dos logs EMF (Embedded Metric Format) e publicadas no CloudWatch Metrics.

Para encontrar as métricas de avaliação
  1. Abra o console do CloudWatch.

  2. No painel de navegação, escolha Métricas > Todas as métricas.

  3. Selecione o namespace Bedrock AgentCore/Evaluations.

  4. Procure as métricas disponíveis por dimensões.

Para saber mais sobre como visualizar e trabalhar com métricas, consulte Usar o CloudWatch Metrics e Criar gráficos de métricas.

Criar painéis personalizados

Você pode criar painéis personalizados para visualizar suas métricas de avaliação junto com outras métricas operacionais.

Para criar um painel com métricas de avaliação
  1. No console do CloudWatch, escolha Painéis no painel de navegação.

  2. Escolha Create dashboard (Criar painel).

  3. Adicione widgets e selecione métricas no namespace Bedrock AgentCore/Evaluations.

  4. Personalize o intervalo de tempo, as estatísticas e o tipo de visualização de acordo com suas necessidades.

Para obter instruções detalhadas, consulte Criar e trabalhar com painéis personalizados e Usar painéis do CloudWatch.

Configurar alarmes em métricas de avaliação

É possível definir alarmes para ser notificado quando as métricas de avaliação ultrapassarem os limites especificados, como, por exemplo, quando a exatidão fica abaixo dos níveis aceitáveis.

Para criar um alarme em métricas de avaliação
  1. No console do CloudWatch, escolha Alarmes > Todos os alarmes.

  2. Selecione Criar alarme.

  3. Escolha Selecionar métrica e navegue até o namespace Bedrock AgentCore/Evaluations.

  4. Escolha a métrica que você deseja monitorar.

  5. Configure as condições limites (limite dinâmico de detecção de anomalias disponível, para o qual não é necessário especificar um número limite estático) e as ações de notificação.

Para obter instruções detalhadas, consulte Usar alarmes do CloudWatch e Criar um alarme do CloudWatch com base em um limite estático.

Recursos adicionais