Detalhes do agente: avaliações
As avaliações fornecem métricas de monitoramento contínuo de qualidade aos agentes de IA. Você pode usar as informações do painel para avaliar a performance, a qualidade e a confiabilidade dos agentes de IA.
Em vez de se basear de casos de teste simulados, as avaliações capturam sessões do usuário e interações do agente reais, fornecendo uma visão abrangente da performance do agente, do início ao fim da interação. Com avaliações do agente, você pode definir regras de amostragem para avaliar apenas uma porcentagem das sessões ou dos rastros e depois aplicar vários avaliadores para analisar e pontuar a performance operacional de um agente de IA. As avaliações e pontuações resultantes são exibidas no painel Avaliações, permitindo que você monitore tendências, identifique possíveis problemas de qualidade, defina alarmes. investigue e diagnostique possíveis problemas.
O painel Avaliações lista todas as avaliações habilitadas e configuradas para o agente selecionado. Para saber mais sobre a configurações de avaliações para um agente, consulte Avaliações do AgentCore. Você pode expandir cada avaliação para visualizar as sessões, os rastros e os intervalos avaliados.
Detalhes das avaliações
Para cada avaliação, o painel inclui as seguintes seções:
Gráficos de avaliações
O painel Avaliações também inclui um gráfico de barras para cada avaliador. Os gráficos mostram as tendências de cada avaliador ao longo do tempo e permitem definir alarmes para determinados valores de métricas. Para definir um alarme, clique em uma barra do gráfico e escolha o ícone Alarme (campainha). Para saber mais, consulte Usar alarmes do Amazon CloudWatch.
Trabalhar com resultados de avaliações
Se precisar de acesso direto aos dados dos resultados da avaliação ou se quiser criar visualizações personalizadas ou trabalhar fora do console do AgentCore Evaluations, acesse os resultados da avaliação diretamente nos painéis do CloudWatch Logs, CloudWatch Metrics e CloudWatch.
Tópicos
Acessar resultados de avaliações no CloudWatch Logs
Os resultados das avaliações são publicados automaticamente no CloudWatch Logs em EMF (Embedded Metric Format).
Para encontrar seu grupo de logs de resultados de avaliações
-
Abra o console do CloudWatch.
-
No painel de navegação, escolha Gerenciamento de logs > Grupos de logs.
-
Pesquise ou navegue até os grupos de logs com o prefixo:
/aws/bedrock-agentcore/evaluations/. -
Dentro desse grupo de logs, os eventos de logs contêm os resultados das avaliações.
Para saber mais sobre como trabalhar com grupos de logs e consultar dados de log, consulte Trabalhar com grupos de logs e fluxos de logs e Analisar dados de logs com o CloudWatch Logs Insights.
Acessar métricas de avaliação no CloudWatch Metrics
As métricas dos resultados das avaliações são extraídas automaticamente dos logs EMF (Embedded Metric Format) e publicadas no CloudWatch Metrics.
Para encontrar as métricas de avaliação
-
Abra o console do CloudWatch.
-
No painel de navegação, escolha Métricas > Todas as métricas.
-
Selecione o namespace Bedrock AgentCore/Evaluations.
-
Procure as métricas disponíveis por dimensões.
Para saber mais sobre como visualizar e trabalhar com métricas, consulte Usar o CloudWatch Metrics e Criar gráficos de métricas.
Criar painéis personalizados
Você pode criar painéis personalizados para visualizar suas métricas de avaliação junto com outras métricas operacionais.
Para criar um painel com métricas de avaliação
-
No console do CloudWatch, escolha Painéis no painel de navegação.
-
Escolha Create dashboard (Criar painel).
-
Adicione widgets e selecione métricas no namespace Bedrock AgentCore/Evaluations.
-
Personalize o intervalo de tempo, as estatísticas e o tipo de visualização de acordo com suas necessidades.
Para obter instruções detalhadas, consulte Criar e trabalhar com painéis personalizados e Usar painéis do CloudWatch.
Configurar alarmes em métricas de avaliação
É possível definir alarmes para ser notificado quando as métricas de avaliação ultrapassarem os limites especificados, como, por exemplo, quando a exatidão fica abaixo dos níveis aceitáveis.
Para criar um alarme em métricas de avaliação
-
No console do CloudWatch, escolha Alarmes > Todos os alarmes.
-
Selecione Criar alarme.
-
Escolha Selecionar métrica e navegue até o namespace Bedrock AgentCore/Evaluations.
-
Escolha a métrica que você deseja monitorar.
-
Configure as condições limites (limite dinâmico de detecção de anomalias disponível, para o qual não é necessário especificar um número limite estático) e as ações de notificação.
Para obter instruções detalhadas, consulte Usar alarmes do CloudWatch e Criar um alarme do CloudWatch com base em um limite estático.