에이전트 세부 정보 - 평가 - Amazon CloudWatch

에이전트 세부 정보 - 평가

평가는 AI 에이전트에 대한 지속적인 품질 모니터링 지표를 제공합니다. 대시보드에서 제공되는 정보를 사용하여 AI 에이전트의 성능, 품질, 신뢰성을 평가할 수 있습니다.

평가에서는 시뮬레이션된 테스트 사례를 사용하는 대신, 실제 사용자 세션과 에이전트 상호 작용을 캡처하여 입력에서 최종 출력에 이르기까지 에이전트 성능을 종합적으로 살펴볼 수 있도록 지원합니다. 에이전트 평가를 사용하면 세션 또는 트레이스의 비율(%)만 평가하도록 샘플링 규칙을 정의한 다음, 다양한 평가자를 적용하여 AI 에이전트의 운영 성능을 평가하고 점수를 매길 수 있습니다. 결과 평가 및 점수는 평가 대시보드에 표시되므로 사용자가 추세를 모니터링하고, 잠재적 품질 문제를 식별하고, 경보를 설정하고, 잠재적 문제를 조사 및 진단할 수 있습니다.

평가 대시보드에는 선택한 에이전트에 대해 활성화되고 구성된 모든 평가가 나열됩니다. 에이전트에 대한 평가 구성과 관련된 자세한 내용은 AgentCore 평가 섹션을 참조하세요. 각 평가를 확장하여 평가된 세션, 트레이스, 스팬을 볼 수 있습니다.

평가

평가 세부 정보

대시보드에는 각 평가에 대해 다음과 같은 섹션이 포함되어 있습니다.

Evaluation configuration metrics

전체 평가 구성에 대한 지표가 제공됩니다. 평가자는 AI 에이전트 성능의 특정한 요소를 평가하는 방법을 정의합니다. 평가자에 대한 자세한 내용을 보려면 평가자 열에서 해당 이름을 선택합니다. 막대 차트를 보고 평가자의 추세를 분석하려면 개수 열에서 값을 선택합니다.

평가 구성 지표
Session evaluations

세션 수준에서 평가자에 대한 평가 결과가 제공됩니다. 세션은 단일 사용자 또는 워크플로의 관련된 상호 작용을 논리적으로 그룹화한 것입니다. 세션에는 하나 이상의 트레이스가 포함될 수 있습니다. 트레이스 평가 섹션에서 한 세션을 선택하여 해당 세션 내의 트레이스 목록으로 필터링 범위를 좁힐 수 있습니다.

세션 평가
Trace evaluations

트레이스 수준에서 평가자에게 평가 결과를 제공합니다. 트레이스는 단일 에이전트 실행 또는 요청에 대한 전체 레코드입니다. 트레이스에는 하나 이상의 스팬이 포함될 수 있습니다. 트레이스를 선택하면 해당 트레이스에서 실행된 모든 평가자와 함께 트레이스 세부 정보를 볼 수 있습니다.

트레이스 평가
Span evaluations

스팬 수준에서 평가자에게 평가 결과를 제공합니다. 스팬은 해당 실행 중에 수행된 개별 작업을 나타냅니다. 스팬을 선택하여 해당 스팬 동안 수행된 모든 작업과 함께 스팬 세부 정보를 볼 수 있습니다.

스팬 평가

평가 그래프

평가 대시보드에는 각 평가자에 대한 막대 그래프도 포함됩니다. 그래프에는 시간 경과에 따른 각 평가자의 추세가 표시되며, 그래프에서 특정 지표 값에 대한 경보를 설정할 수 있습니다. 경보를 설정하려면 그래프에서 막대를 클릭한 다음, 경보(종 모양) 아이콘을 선택합니다. 자세한 내용은 Amazon CloudWatch 경보 사용 섹션을 참조하세요.

평가 그래프

평가 결과 사용

평가 결과 데이터에 직접 액세스해야 하거나, 사용자 지정 시각화를 생성하거나, AgentCore 평가 콘솔 외부에서 작업하려는 경우 CloudWatch Logs, CloudWatch 지표, CloudWatch 대시보드를 통해 평가 결과에 직접 액세스할 수 있습니다.

CloudWatch Logs에서 평가 결과에 액세스

평가 결과는 임베디드 지표 형식(EMF)으로 CloudWatch Logs에 자동으로 게시됩니다.

평가 결과 로그 그룹을 찾으려면
  1. CloudWatch 콘솔을 엽니다.

  2. 탐색 창에서 로그 관리 > 로그 그룹을 선택합니다.

  3. 접두사가 /aws/bedrock-agentcore/evaluations/인 로그 그룹을 검색하거나 탐색합니다.

  4. 이 로그 그룹 내에서 로그 이벤트에는 평가 결과가 포함됩니다.

로그 그룹 사용 및 로그 데이터 쿼리에 대한 자세한 내용은 로그 그룹 및 로그 스트림 작업 CloudWatch Logs Insights를 사용한 로그 데이터 분석 섹션을 참조하세요.

CloudWatch 지표에서 평가 지표에 액세스

평가 결과 지표는 임베디드 지표 형식(EMF) 로그에서 자동으로 추출된 후 CloudWatch 지표에 게시됩니다.

평가 지표를 찾으려면
  1. CloudWatch 콘솔을 엽니다.

  2. 탐색 창에서 지표 > 모든 지표를 선택합니다.

  3. Bedrock AgentCore/평가 도구 세트 네임스페이스를 선택합니다.

  4. 차원별로 사용 가능한 지표를 검색합니다.

지표 보기 및 사용에 대한 자세한 내용은 CloudWatch 지표 사용지표 그래프 작성 섹션을 참조하세요.

사용자 지정 대시보드 생성

사용자 지정 대시보드를 생성하여 다른 운영 지표와 함께 평가 지표를 시각화할 수 있습니다.

평가 지표를 사용하여 대시보드를 생성하려면
  1. CloudWatch 콘솔의 탐색 창에서 대시보드를 선택합니다.

  2. 대시보드 생성을 선택합니다.

  3. 위젯을 추가한 후 Bedrock AgentCore/평가 도구 세트 네임스페이스에서 지표를 선택합니다.

  4. 필요에 맞게 시간 범위, 통계, 시각화 유형을 사용자 지정합니다.

자세한 지침은 사용자 지정 대시보드 생성 및 사용 CloudWatch 대시보드 사용 섹션을 참조하세요.

평가 지표에 대한 경보 설정

사용자가 지정한 임곗값을 평가 지표가 초과할 경우 알림을 보내도록 경보를 설정할 수 있습니다. 예를 들어 정확성이 허용 가능한 수준 아래로 떨어지는 경우가 이에 해당합니다.

평가 지표에 대한 경보를 생성하려면
  1. CloudWatch 콘솔에서 경보 > 모든 경보를 선택합니다.

  2. 경보 생성을 선택하세요.

  3. 지표 선택을 선택한 후 Bedrock AgentCore/평가 도구 세트 네임스페이스로 이동합니다.

  4. 모니터링할 지표를 선택합니다.

  5. 임곗값 조건(고정된 수의 임곗값을 지정할 필요가 없는 경우 동적 이상 탐지 임곗값 사용 가능) 및 알림 작업을 구성합니다.

자세한 지침은 CloudWatch 경보 사용정적 임곗값을 기반으로 CloudWatch 경보 생성 섹션을 참조하세요.

추가 리소스