가드레일 생성 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

가드레일 생성

Amazon Bedrock Guardrails는 바람직하지 않고 유해한 콘텐츠를 방지하고 개인 정보 보호를 위해 민감한 정보를 제거하거나 마스킹하도록 구성할 수 있는 필터를 제공합니다.

Amazon Bedrock Guardrails를 사용하여 다음 필터를 구성할 수 있습니다.

  • 콘텐츠 필터 -이 필터는 입력 프롬프트 또는 모델 응답(추론 콘텐츠 제외)에서 유해한 텍스트 또는 이미지 콘텐츠를 감지하고 필터링하는 데 도움이 됩니다. 필터링은 혐오, 모욕, 성적 표현, 폭력, 불법 행위 및 프롬프트 공격과 같은 사전 정의된 특정 유해 콘텐츠 범주의 탐지를 기반으로 수행됩니다. 사용 사례에 따라 이러한 각 범주에 대한 필터 강도를 구성할 수 있습니다. 표준 티어를 사용하면 원치 않는 콘텐츠 감지가 확장되어 주석, 변수 및 함수 이름, 문자열 리터럴을 포함한 코드 요소 내의 유해한 콘텐츠로부터 보호됩니다.

  • 프롬프트 공격 - 콘텐츠 필터 내에서 범주로 제공되는이 필터는 탈옥, 프롬프트 주입 및 프롬프트 누출(표준 티어만 해당)을 포함한 프롬프트 공격을 탐지하고 필터링하는 데 도움이 될 수 있습니다. 이 기능을 사용하면 콘텐츠 조절을 우회하거나, 지침을 재정의하거나, 유해한 콘텐츠를 생성하기 위한 프롬프트를 감지할 수 있습니다.

  • 거부된 주제 - 생성형 AI 애플리케이션 내에서 피해야 할 주제 세트를 정의할 수 있습니다. 예를 들어, 뱅킹 어시스턴트 애플리케이션에서 불법 투자 조언과 관련된 주제를 피하도록 설계할 수 있습니다. 표준 티어를 사용하면 콘텐츠 필터가 코드 도메인으로 확장됩니다.

  • 단어 필터 - 사용자와 생성형 AI 애플리케이션 간의 상호 작용에서 감지하고 차단하려는 사용자 지정 단어 또는 문구 집합(정확한 일치)을 정의할 수 있습니다. 예를 들어 욕설(ready-to-use 가능한 옵션 사용)과 경쟁자 이름 또는 기타 불쾌한 단어와 같은 특정 사용자 지정 단어를 감지하고 차단할 수 있습니다.

  • 민감한 정보 필터 - 사용자 입력 및 FM 응답에서 개인 식별 정보(PII) 또는 사용자 지정 정규식 엔터티와 같은 민감한 콘텐츠를 감지하는 데 도움이 될 수 있습니다. 이 필터는 컨텍스트에 따라 달라지는 확률적 기계 학습(ML) 기반 솔루션입니다. 입력 프롬프트 또는 모델 응답 내의 컨텍스트를 기반으로 민감한 정보를 감지합니다. 사용 사례에 따라 민감한 정보가 포함된 입력 및 응답을 차단하거나 마스킹할 수 있습니다. 예를 들어, 고객 및 에이전트 대화 트랜스크립트에서 요약을 생성할 때 사용자의 개인 정보를 삭제할 수 있습니다.

  • 컨텍스트 근거 검사 - 모델 응답이 소스 정보에 근거하지 않거나(실제로 부정확하거나 새 정보가 추가된 경우) 사용자의 쿼리와 관련이 없는 경우, 모델 응답에서 할루시네이션을 감지하고 필터링할 수 있습니다. 예를 들어 모델 응답이 검색된 구절의 정보에서 벗어나거나 사용자의 질문에 답변하지 않는 경우 RAG(검색 증강 생성) 애플리케이션에서 응답을 차단하거나 플래그를 지정할 수 있습니다.

  • 자동 추론 검사 - 모델 응답이 사용자가 정의한 논리적 규칙 및 정책을 준수하는지 검증하는 데 도움이 될 수 있습니다. 추론 요구 사항을 지정하는 자연어를 사용하여 정책을 생성할 수 있으며 자동 추론 검사는 모델 출력이 이러한 논리적 제약 조건을 준수하는지 여부를 평가합니다. 예를 들어 고객 서비스 챗봇이 인벤토리에서 사용할 수 있는 제품만 추천하도록 하거나 재무 조언이 규정 준수 규칙을 준수하는지 확인할 수 있습니다.

참고

위의 정책에서 차단된 모든 콘텐츠는 Amazon Bedrock 모델 간접 호출 로그를 활성화한 경우 해당 로그에 일반 텍스트로 표시됩니다. 차단된 콘텐츠가 로그에 일반 텍스트로 표시되지 않도록 하려면 Amazon Bedrock 간접 호출 로그를 비활성화하면 됩니다.

가드레일에는 프롬프트와 사용자 응답이 차단되는 경우를 대비해 최소 하나 이상의 필터와 메시지가 포함되어 있어야 합니다. 기본 메시지를 사용하도록 선택할 수 있습니다. 나중에 가드레일 수정의 단계에 따라 필터를 추가하고 가드레일을 반복할 수 있습니다.