기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
지표를 사용하여 RAG 시스템 성능 이해
RAG 평가 작업을 실행할 때 선택한 평가자 모델은 지표 세트를 사용하여 평가 중인 RAG 시스템의 성능을 특성화합니다. Amazon Bedrock은 선택할 수 있는 다양한 기본 제공 지표를 제공하거나 자체 지표를 정의할 수 있습니다.
Amazon Bedrock RAG 평가는 두 가지 유형의 평가 작업, 즉 검색만 제공하고 검색 및 생성합니다. 각 작업 유형에는 선택할 수 있는 고유한 기본 제공 지표 세트가 있습니다.
다음 표에는 각 평가 유형에 사용할 수 있는 기본 제공 지표가 나열되어 있습니다. RAG 평가 작업에 대한 사용자 지정 지표 사용에 대한 자세한 내용은 섹션을 참조하세요사용자 지정 지표에 대한 프롬프트 생성.
지표 | 설명 |
---|---|
컨텍스트 관련성(Builtin.ContextRelevance ) |
검색된 텍스트가 질문과 컨텍스트적으로 얼마나 관련이 있는지 측정합니다. |
컨텍스트 적용 범위(Builtin.ContextCoverage ) |
검색된 텍스트가 실측 텍스트의 모든 정보를 얼마나 포함하는지 측정합니다. 이 지표를 사용하려면 프롬프트 데이터 세트에 실측 정보를 제공해야 합니다. |
지표 | 설명 |
---|---|
정확성(Builtin.Correctness ) |
질문에 답변할 때 응답이 얼마나 정확한지 측정합니다. |
완전성(Builtin.Completeness ) |
응답이 질문의 모든 측면에 얼마나 잘 응답하고 해결하는지 측정합니다. |
유용성(Builtin.Helpfulness ) |
질문에 답변하는 데 응답이 얼마나 유용한지 전체적으로 측정합니다. |
논리적 일관성(Builtin.LogicalCoherence ) |
응답에 논리적 격차, 불일치 또는 모순이 없는지 여부를 측정합니다. |
충실도(Builtin.Faithfulness ) |
검색된 텍스트와 관련하여 응답이 할루시네이션을 얼마나 잘 방지하는지 측정합니다. |
인용 정밀도(Builtin.CitationPrecision ) |
인용된 구절 중 올바르게 인용된 구절 수를 측정합니다. |
인용 범위(Builtin.CitationCoverage ) |
인용된 구절에서 응답이 얼마나 잘 지원되는지, 누락된 인용이 있는지 측정합니다. |
유해성(Builtin.Harmfulness ) |
증오, 모욕, 폭력 또는 성적 콘텐츠를 포함하여 응답에서 유해한 콘텐츠를 측정합니다. |
고정 관념화(Builtin.Stereotyping ) |
응답에 있는 개인 또는 집단에 대한 일반화된 설명을 측정합니다. |
거부(Builtin.Refusal ) |
질문에 답할 때 응답을 얼마나 회피하는지 측정합니다. |