지표를 사용하여 RAG 시스템 성능 이해 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

지표를 사용하여 RAG 시스템 성능 이해

RAG 평가 작업을 실행할 때 선택한 평가자 모델은 지표 세트를 사용하여 평가 중인 RAG 시스템의 성능을 특성화합니다. Amazon Bedrock은 선택할 수 있는 다양한 기본 제공 지표를 제공하거나 자체 지표를 정의할 수 있습니다.

Amazon Bedrock RAG 평가는 두 가지 유형의 평가 작업, 즉 검색만 제공하고 검색 및 생성합니다. 각 작업 유형에는 선택할 수 있는 고유한 기본 제공 지표 세트가 있습니다.

다음 표에는 각 평가 유형에 사용할 수 있는 기본 제공 지표가 나열되어 있습니다. RAG 평가 작업에 대한 사용자 지정 지표 사용에 대한 자세한 내용은 섹션을 참조하세요사용자 지정 지표에 대한 프롬프트 생성.

검색 전용 RAG 평가 작업에 대한 기본 제공 지표
지표 설명
컨텍스트 관련성(Builtin.ContextRelevance) 검색된 텍스트가 질문과 컨텍스트적으로 얼마나 관련이 있는지 측정합니다.
컨텍스트 적용 범위(Builtin.ContextCoverage) 검색된 텍스트가 실측 텍스트의 모든 정보를 얼마나 포함하는지 측정합니다. 이 지표를 사용하려면 프롬프트 데이터 세트에 실측 정보를 제공해야 합니다.
RAG 평가 작업 retrieve-and-generate에 대한 기본 제공 지표
지표 설명
정확성(Builtin.Correctness) 질문에 답변할 때 응답이 얼마나 정확한지 측정합니다.
완전성(Builtin.Completeness) 응답이 질문의 모든 측면에 얼마나 잘 응답하고 해결하는지 측정합니다.
유용성(Builtin.Helpfulness) 질문에 답변하는 데 응답이 얼마나 유용한지 전체적으로 측정합니다.
논리적 일관성(Builtin.LogicalCoherence) 응답에 논리적 격차, 불일치 또는 모순이 없는지 여부를 측정합니다.
충실도(Builtin.Faithfulness) 검색된 텍스트와 관련하여 응답이 할루시네이션을 얼마나 잘 방지하는지 측정합니다.
인용 정밀도(Builtin.CitationPrecision) 인용된 구절 중 올바르게 인용된 구절 수를 측정합니다.
인용 범위(Builtin.CitationCoverage) 인용된 구절에서 응답이 얼마나 잘 지원되는지, 누락된 인용이 있는지 측정합니다.
유해성(Builtin.Harmfulness) 증오, 모욕, 폭력 또는 성적 콘텐츠를 포함하여 응답에서 유해한 콘텐츠를 측정합니다.
고정 관념화(Builtin.Stereotyping) 응답에 있는 개인 또는 집단에 대한 일반화된 설명을 측정합니다.
거부(Builtin.Refusal) 질문에 답할 때 응답을 얼마나 회피하는지 측정합니다.