단어 필터를 사용해 대화에서 특정 단어 및 문구 제거

Amazon Bedrock Guardrails에는 입력 프롬프트 및 모델 응답에서 단어와 문구를 차단하는 데 사용할 수 있는 단어 필터(정확한 일치)가 있습니다. 다음과 같은 단어 필터를 사용하여 욕설, 불쾌하거나 부적절한 콘텐츠, 경쟁사 또는 제품 이름이 포함된 콘텐츠를 차단할 수 있습니다.

욕설 필터 - 욕설 단어를 차단하려면 이 필터를 사용 설정합니다. 욕설 목록은 욕설의 일반적인 정의를 기반으로 하며 지속적으로 업데이트됩니다.
사용자 지정 단어 필터 - 목록에 최대 3개의 단어 AWS Management Console 로 구성된를 사용하여 사용자 지정 단어와 구문을 추가합니다. 사용자 지정 단어 필터에는 최대 10,000개의 항목을 추가할 수 있습니다.

Amazon Bedrock AWS Management Console을 사용하여 단어와 문구를 추가하는 방법은 다음과 같습니다.
- 텍스트 편집기에서 수동으로 추가합니다.
- .txt 또는 .csv 파일을 업로드합니다.
- Amazon S3 버킷에서 객체를 업로드합니다.
참고
를 사용해서만 문서와 객체를 업로드할 수 있습니다 AWS Management Console. API 및 SDK 작업은 텍스트만 지원하며 문서 및 객체 업로드는 포함되지 않습니다.

가드레일에 대한 단어 정책 구성

AWS Management Console 또는 Amazon Bedrock API를 사용하여 가드레일에 대한 단어 정책을 구성할 수 있습니다.

Console

Amazon Bedrock 콘솔을 사용할 권한이 있는 IAM 자격 증명 AWS Management Console 으로에 로그인합니다. 그 다음 https://console.aws.amazon.com/bedrock에서 Amazon Bedrock 콘솔을 엽니다.
왼쪽 탐색 창에서 가드레일을 선택한 다음 가드레일 생성을 선택합니다.
가드레일 세부 정보 제공 페이지에서 다음 작업을 수행합니다.
1. 가드레일 세부 정보 섹션에서 가드레일의 이름 및 필요한 경우 설명을 제공합니다.
2. 차단된 프롬프트에 대한 메시지의 경우 가드레일이 적용될 때 표시할 메시지를 입력합니다. 응답에 가드레일이 적용될 때 동일한 메시지를 사용하도록 하려면 응답에 동일한 차단된 메시지 적용 확인란을 선택합니다.
3. (선택 사항) 가드레일에 대한 교차 리전 추론을 활성화하려면 교차 리전 추론을 펼친 다음 가드레일에 대한 교차 리전 추론 활성화를 선택합니다. 가드레일 추론 요청을 라우팅할 수 AWS 리전 있는 대상을 정의하는 가드레일 프로파일을 선택합니다.
4. (선택 사항) 기본적으로 가드레일은 로 암호화됩니다 AWS 관리형 키. 자체 고객 관리형 KMS 키를 사용하려면 KMS 키 선택을 펼치고 암호화 설정 사용자 지정(고급) 확인란을 선택합니다.
  
  기존 AWS KMS 키를 선택하거나 키 생성을 선택하여 새 AWS KMS 키를 생성할 수 있습니다.
5. (선택 사항) 가드레일에 태그를 추가하려면 태그를 펼친 다음 정의한 각 태그에 대해 새 태그 추가를 선택합니다.
  
  자세한 내용은 Amazon Bedrock 리소스 태그 지정 단원을 참조하십시오.
6. 다음을 선택합니다.

단어 필터 추가 페이지에서 다음을 수행합니다.

욕설 필터링을 선택하여 프롬프트 및 응답의 욕설을 차단합니다. 욕설 목록은 일반적인 정의를 기반으로 하며 지속적으로 업데이트됩니다.

사용자 지정 단어 및 문구 추가에서 가드레일이 차단할 단어 및 문구를 추가하는 방법을 선택합니다. 단어로 구성된 파일을 업로드할 경우, 파일의 각 줄에 단어 하나가 포함되거나 최대 세 단어로 된 문구가 포함되어야 합니다. 헤더는 포함하지 않습니다. 다음과 같은 옵션이 있습니다.

옵션	지침
단어와 문구를 수동으로 추가	단어 및 문구 보기 및 편집 섹션에 단어와 문구를 직접 추가할 수 있습니다.
로컬 파일 업로드	단어와 문구가 포함된 .txt 또는 .csv 파일을 업로드하려면 이 옵션을 선택한 후 파일 선택을 선택합니다.
Amazon S3 객체에서 업로드	S3 버킷에서 객체를 업로드합니다.

단어 및 문구 보기 및 편집 섹션에서 가드레일로 차단할 단어 및 문구를 편집합니다. 다음과 같은 옵션이 있습니다.
- 로컬 파일 또는 Amazon S3 객체에서 단어 목록을 업로드한 경우 이 섹션에 단어 목록이 채워집니다. 오류가 있는 항목을 필터링하려면 오류 표시를 선택합니다.
- 단어 목록에 항목을 추가하려면 단어 또는 문구 추가를 선택합니다. 상자에 단어 하나 또는 최대 세 단어의 문구를 입력하고 Enter 키를 누르거나 확인 표시 아이콘을 선택하여 항목을 확인합니다.
- 항목을 편집하려면 항목 옆의 편집 아이콘( )을 선택합니다.
- 단어 목록에서 항목을 삭제하려면 휴지통 아이콘( )을 선택하거나, 항목을 편집하려는 경우 항목 옆에 있는 삭제 아이콘( )을 선택합니다.
- 오류가 포함된 항목을 삭제하려면 모두 삭제를 선택한 다음 오류가 있는 모든 행 삭제를 선택합니다.
- 모든 항목을 삭제하려면 모두 삭제를 선택한 다음 모든 행 삭제를 선택합니다.
- 항목을 검색하려면 검색 창에 표현식을 입력합니다.
- 오류가 있는 항목만 표시하려면 모두 표시 드롭다운 메뉴를 선택하고 오류만 표시를 선택합니다.
- 테이블의 각 페이지 크기나 테이블의 열 표시를 구성하려면 설정 아이콘( )을 선택합니다. 기본 설정을 구성한 다음 확인을 선택합니다.
- 기본적으로 이 섹션에는 테이블 편집기가 표시됩니다. 각 줄에 단어 또는 문구를 입력할 수 있는 텍스트 편집기로 전환하려면 텍스트 편집기를 선택합니다. 텍스트 편집기는 다음 기능을 제공합니다.
  - 다른 텍스트 편집기에서 단어 목록을 복사하여 이 편집기에 붙여 넣을 수 있습니다.
  - 오류가 포함된 항목 옆에 빨간색 X 아이콘이 나타나고 다음 편집기에 오류 목록이 나타납니다.
필요에 따라 다른 정책을 구성하려면 다음을 선택하고 가드레일 생성을 완료하려면 검토 및 생성으로 건너뛰기를 선택합니다.
가드레일의 설정을 검토합니다.
1. 변경하려는 섹션에서 편집을 선택합니다.
2. 정책 구성을 완료했으면 생성을 선택하여 가드레일을 생성합니다.

API

단어 정책으로 가드레일을 만들려면 CreateGuardrail 요청을 보냅니다. 요청 형식은 다음과 같습니다.


POST /guardrails HTTP/1.1
Content-type: application/json

{
    "blockedInputMessaging": "string",
    "blockedOutputsMessaging": "string",
    "wordPolicyConfig": {
        "managedWordListsConfig": [
            {
                "inputAction": "BLOCK | NONE",
                "inputEnabled": true,
                "outputAction": "BLOCK | NONE",
                "outputEnabled": true,
                "type": "PROFANITY"
            },
        ],
        "wordsConfig": [{
            "text": "string",
            "inputAction": "BLOCK | NONE",
            "inputEnabled": true,
            "outputAction": "BLOCK | NONE",
            "outputEnabled": true
        }]
    },
    "description": "string",
    "kmsKeyId": "string",
    "name": "string",
    "tags": [{
        "key": "string",
        "value": "string"
    }],
    "crossRegionConfig": {
        "guardrailProfileIdentifier": "string"
    }
}

가드레일에 name 및 description을 지정합니다.
가드레일이 blockedInputMessaging 및 blockedOutputsMessaging 필드에서 프롬프트 또는 모델 응답을 성공적으로 차단했을 때의 메시지를 지정합니다.
wordPolicyConfig 객체에서 단어 정책을 구성합니다.
- managedWordListsConfig를 사용하여 욕설 단어의 사전 정의된 목록을 구성합니다.
- wordsConfig 배열을 사용하여 필터링할 사용자 지정 단어와 구문을 지정합니다.
  - text 필드에서 필터링할 단어와 문구를 지정합니다.
  - (선택 사항) inputAction을 사용하는 프롬프트 또는 outputAction을 사용하는 응답에서 해당 단어가 감지될 때 수행할 작업을 지정합니다. BLOCK을 선택하여 콘텐츠를 차단하고 차단된 메시지로 바꾸거나 NONE을 선택하여 조치를 취하지 않고 감지 정보를 반환하도록 합니다.
  - (선택 사항) inputEnabled 및 outputEnabled를 사용하여 입력 및 출력에 가드레일 평가가 활성화되어 있는지 여부를 제어합니다.
(선택 사항) 가드레일에 태그를 연결합니다. 자세한 내용은 Amazon Bedrock 리소스 태그 지정 섹션을 참조하세요.
(선택 사항) 보안을 위해 kmsKeyId 필드에 KMS 키의 ARN을 포함합니다.
(선택 사항) 교차 리전 추론을 활성화하려면 crossRegionConfig 객체에 가드레일 프로파일을 지정합니다.

응답 형식은 다음과 같습니다.


HTTP/1.1 202
Content-type: application/json

{
    "createdAt": "string",
    "guardrailArn": "string",
    "guardrailId": "string",
    "version": "string"
}

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

거부된 주제 추가

민감한 정보 필터 추가

단어 필터를 사용해 대화에서 특정 단어 및 문구 제거

참고

가드레일에 대한 단어 정책 구성