Amazon Bedrock Guardrails를 사용하여 유해한 콘텐츠 감지 및 필터링

Amazon Bedrock Guardrails는 안전한 생성형 AI 애플리케이션을 구축하는 데 도움이 되는 구성 가능한 보호 기능을 제공합니다. Amazon Bedrock Guardrails는 파운데이션 모델(FMs 전반의 포괄적인 안전 및 프라이버시 제어를 통해 원치 않는 콘텐츠를 감지 및 필터링하고 사용자 입력 또는 모델 응답에 존재할 수 있는 민감한 정보를 보호하는 데 도움이 되는 일관된 사용자 경험을 제공합니다(추론 콘텐츠 블록 제외).

여러 사용 사례 및 애플리케이션에서 Amazon Bedrock Guardrails를 사용할 수 있습니다. 다음은 몇 가지 예입니다.

유해한 사용자 입력 및 유해 모델 응답을 필터링하는 데 도움이 되는 챗봇 애플리케이션입니다.
불법 투자 조언을 구하거나 제공하는 것과 관련된 사용자 쿼리 또는 모델 응답을 차단하는 데 도움이 되는 뱅킹 애플리케이션입니다.
사용자와 에이전트 간의 대화 기록을 요약하는 콜센터 애플리케이션은 가드레일을 사용하여 사용자 프라이버시를 보호할 수 있도록 사용자의 개인 식별 정보(PII)를 삭제할 수 있습니다.

Amazon Bedrock Guardrails는 원치 않는 콘텐츠를 감지하고 필터링하기 위해 다음과 같은 보호 장치(필터라고도 함)를 제공합니다.

콘텐츠 필터 -이 필터는 입력 프롬프트 또는 모델 응답에서 유해한 텍스트 또는 이미지 콘텐츠를 감지하고 필터링하는 데 도움이 됩니다. 필터링은 혐오, 모욕, 성적 표현, 폭력, 불법 행위 및 프롬프트 공격과 같은 사전 정의된 특정 유해 콘텐츠 범주의 탐지를 기반으로 수행됩니다. 사용 사례에 따라 이러한 각 범주에 대한 필터 강도를 구성할 수 있습니다. 이러한 범주는 Classic 티어와 Standard 티어 모두에서 지원됩니다. 표준 티어를 사용하면 원치 않는 콘텐츠를 탐지하여 주석, 변수 및 함수 이름, 문자열 리터럴 등 코드 요소 내에 도입되는 유해한 콘텐츠로부터 보호할 수 있습니다.
거부된 주제 - 애플리케이션의 컨텍스트에서 바람직하지 않은 주제 세트를 정의할 수 있습니다. 사용자 쿼리 또는 모델 응답에서 이러한 주제가 감지되면 필터가 이를 차단합니다. 표준 티어를 사용하면 원치 않는 콘텐츠를 탐지하여 주석, 변수 및 함수 이름, 문자열 리터럴 등 코드 요소 내에 발생하는 유해한 콘텐츠로부터 보호할 수 있습니다.
단어 필터 - 최종 사용자와 생성형 AI 애플리케이션 간의 상호 작용에서 차단하려는 사용자 지정 단어 또는 문구 집합(정확한 일치)을 정의할 수 있습니다. 예를 들어 욕설(ready-to-use 가능한 옵션 사용)과 경쟁자 이름과 같은 사용자 지정 단어를 차단할 수 있습니다.
민감한 정보 필터 - 사용자 입력 및 모델 응답에서 개인 식별 정보(PII)와 같은 민감한 정보를 차단하거나 마스킹하는 데 도움이 되도록이 필터를 구성할 수 있습니다. 차단 또는 마스킹은 SSN, 생년월일, 주소 등과 같은 엔터티에서 민감한 정보의 확률적 탐지를 기반으로 수행됩니다. 또한이 필터를 사용하면 패턴의 정규 표현식 기반 감지(사용자 지정 정규식)를 구성할 수 있습니다.
컨텍스트 근거 검사 -이 필터는 모델 응답이 소스에서 근거가 없거나(실제로 부정확하거나 새 정보를 추가) 사용자의 쿼리와 관련이 없는 경우 모델 응답에서 할루시네이션을 감지하는 데 도움이 됩니다. 예를 들어 검색 증강 생성(RAG) 애플리케이션에서 응답을 차단하거나 플래그를 지정할 수 있습니다. 모델 응답이 검색된 소스의 정보에서 벗어나거나 사용자의 질문에 답변하지 않는 경우.
자동 추론 검사 -이 필터를 사용하면 논리적 규칙 세트와 비교하여 파운데이션 모델 응답의 정확성을 검증할 수 있습니다. 자동 추론 검사를 사용하여 할루시네이션을 감지하고, 수정 사항을 제안하고, 모델 응답에서 설명되지 않은 가정을 강조 표시할 수 있습니다.

위의 필터 외에도 사용자 입력 또는 모델 응답이 가드레일에 정의된 필터를 위반하는 경우 사용자에게 반환되도록 메시지를 구성할 수도 있습니다.

다양한 구성으로 실험 및 벤치마킹하고 기본 제공 테스트 창을 사용하여 결과가 사용 사례 요구 사항을 충족하는지 확인합니다. 가드레일을 만들면 반복적으로 수정할 수 있는 규격 초안이 자동으로 제공됩니다. 다양한 구성을 실험하고 기본 제공 테스트 창을 사용하여 사용 사례에 적합한지 확인하세요. 구성에 만족하는 경우 가드레일 버전을 만들어 지원되는 파운데이션 모델과 함께 사용할 수 있습니다.

가드레일 ID와 버전을 지정하여 추론 API 간접 호출 중에 가드레일을 FM과 함께 바로 사용할 수 있습니다. 파운데이션 모델을 간접적으로 호출하지 않고도 ApplyGuardrail API를 통해 가드레일을 직접 사용할 수도 있습니다. 가드레일이 사용되는 경우 정의된 필터를 기준으로 입력 프롬프트와 FM 완료를 평가합니다.

검색 증강 생성(RAG) 또는 대화형 애플리케이션의 경우 시스템 지침, 검색 결과, 대화 기록 또는 몇 가지 간단한 예제를 삭제하면서 사용자 입력 프롬프트만 평가해야 할 수 있습니다. 입력 프롬프트의 섹션을 선택적으로 평가하려면 사용자 입력에 태그를 적용하여 콘텐츠 필터링 입력 프롬프트의 섹션만 평가하는 기능은 AWS SDK를 통해 사용할 수 있으며 Bedrock Playground 및 Bedrock Guardrails 관리 콘솔을 포함한 관리 콘솔에서는 사용할 수 없습니다를 참조하세요.

주제

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

프롬프트 인젝션 보안

개요