감지 모드를 사용한 가드레일 평가 예: 감지 모드를 사용하여 콘텐츠 필터 평가

Amazon Bedrock Guardrails에서 감지한 유해한 콘텐츠를 처리하는 옵션

Amazon Bedrock Guardrails가 프롬프트(inputAction) 및 응답(outputAction)에서 유해한 콘텐츠를 감지할 때 런타임 시 수행할 작업을 구성할 수 있습니다.

가드레일 필터링 정책은 모델 입력 및 응답에서 유해한 콘텐츠가 감지될 때 다음 작업을 지원합니다.

차단 - 콘텐츠를 차단하고 차단된 메시지로 바꿉니다.
마스킹 - 콘텐츠를 익명화하고 식별자 태그(예: {NAME} 또는 {EMAIL})로 바꿉니다.

이 옵션은 민감한 정보 필터에서만 사용할 수 있습니다. 자세한 내용은 민감한 정보 필터를 사용하여 대화에서 PII 제거 단원을 참조하십시오.
감지 - 조치를 취하지 않고 추적 응답에서 가드레일이 감지한 내용을 반환합니다. 감지 모드라고 하는 이 옵션을 사용하면 가드레일이 예상대로 작동하는지 평가할 수 있습니다.

감지 모드를 사용한 가드레일 평가

Amazon Bedrock Guardrails 정책은 감지 모드를 지원하므로 작업(예: 콘텐츠 차단)을 적용하지 않고도 가드레일의 성능을 평가할 수 있습니다.

감지 모드를 사용하면 다음과 같은 이점이 있습니다.

고객 경험에 영향을 주지 않고 가드레일 정책의 다양한 조합과 강점을 테스트합니다.
거짓 긍정 또는 부정을 분석하고 그에 따라 정책 구성을 조정합니다.
가드레일이 예상대로 작동하는지 확인한 후에만 가드레일을 배포합니다.

예: 감지 모드를 사용하여 콘텐츠 필터 평가

예를 들어 콘텐츠 필터 강도가 HIGH인 정책을 구성한다고 가정해 보겠습니다. 이 설정에 따라 가드레일은 평가에서 LOW의 신뢰도를 반환할 때에도 콘텐츠를 차단합니다.

이 동작을 이해하기 위해(그리고 애플리케이션이 예상치 못한 콘텐츠를 차단하지 않도록 하기 위해) 정책 작업을 NONE으로 구성할 수 있습니다. 추적 응답은 다음과 같을 수 있습니다.


{
    "assessments": [{
        "contentPolicy": {
            "filters": [{
                "action": "NONE",
                "confidence": "LOW",
                "detected": true,
                "filterStrength": "HIGH",
                "type": "VIOLENCE"
            }]
        }
    }]
}

이렇게 하면 가드레일 평가를 미리 보고 VIOLENCE가 감지되었는지(true) 확인할 수 있지만 NONE으로 구성했기 때문에 조치가 취해지지 않았습니다.

해당 텍스트를 차단하지 않으려면 필터 강도를 MEDIUM 또는 LOW로 조정하고 평가를 다시 실행하면 됩니다. 원하는 결과를 얻으면 정책 작업을 BLOCK 또는 ANONYMIZE로 업데이트할 수 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

컨텍스트 근거 검사 추가

Amazon Bedrock Guardrails에 자동 추론 검사 추가