使用內容篩選條件封鎖有害的單字和對話

Amazon Bedrock Guardrails 支援內容篩選條件，以協助偵測和篩選自然語言的有害使用者輸入和模型產生的輸出，以及 Standard 層中的程式碼相關內容。下列類別支援內容篩選條件：

仇恨

描述因身份 (例如種族、民族、性別、宗教、性取向、能力和國籍) 而歧視、批評、侮辱、譴責或做出非人性化的輸入提示和模型回應。

侮辱

描述輸入提示和模型回應，包括貶低、羞辱、模擬、侮辱或輕視語言。這種類型的語言也被標記為霸凌。

性愛相關

描述使用直接或間接引用身體部位、身體特徵或性別，表現出性興趣、活動或激起性欲的語言的輸入提示和模型回應。

暴力

描述輸入提示和模型回應，包括對個人、群體或實物造成身體痛苦、傷害或損害的美化或威脅。

不法行為

描述輸入提示和模型回應，這些提示和模型回應會尋找或提供有關參與犯罪活動的資訊，或是傷害、詐騙或利用個人、群體或機構。

設定防護機制的內容篩選條件

您可以使用 AWS Management Console 或 Amazon Bedrock API 來設定護欄的內容篩選條件。

Console

AWS Management Console 使用具有使用 Amazon Bedrock 主控台之許可的 IAM 身分登入。接著，開啟位於 https://console.aws.amazon.com/bedrock 的 Amazon Bedrock 主控台。
從左側導覽窗格中，選擇防護機制，然後選擇建立防護機制。
在提供防護機制詳細資訊頁面中，執行下列動作：
1. 在防護機制詳細資訊區段中，提供防護機制的名稱和選用的描述。
2. 在封鎖提示的訊息中，輸入套用防護機制時顯示的訊息。選取為回應套用相同的封鎖訊息核取方塊，以在將防護機制套用至回應時，使用相同的訊息。
3. (選用) 若要為您的防護機制啟用跨區域推論，請展開跨區域推論，然後選取為您的防護機制啟用跨區域推論。選擇防護機制設定檔，定義可路由防護機制推論請求的目的地 AWS 區域。
4. （選用）根據預設，您的護欄會使用加密 AWS 受管金鑰。若要使用您自己的客戶受管 KMS 金鑰，請展開 KMS 金鑰選取範圍，然後選取自訂加密設定 (進階) 核取方塊。
  
  您可以選取現有的 AWS KMS 金鑰，或選取建立金鑰以建立新的 AWS KMS 金鑰。
5. (選用) 若要將標籤新增至防護機制，請展開標籤。然後，為您定義的每個標籤選取新增標籤。
  
  如需詳細資訊，請參閱標記 Amazon Bedrock 資源。
6. 選擇下一步。
在設定內容篩選條件頁面上，執行下列動作，設定您想要篩選掉與使用內容篩選條件封鎖有害的單字和對話中所定義之類別相關內容的強度：
1. 選取設定有害類別篩選條件。選取文字和/或影像，從提示或進入模型的回應篩選文字或影像內容。針對您要套用至每個類別的篩選層級，選取無、低、中或高。您可以選擇為提示或回應設定不同的篩選條件層級。您可以在有害類別中選取提示攻擊的篩選條件。設定您希望每個篩選條件對於使用者提供給模型之提示的嚴格程度。
2. 選擇封鎖或偵測 (無動作)，判斷您的防護機制在提示和回應中偵測到有害內容時要採取的動作。
  
  如需詳細資訊，請參閱用於處理 Amazon Bedrock 防護機制偵測到之有害內容的選項。
3. 在設定閾值中，針對您要套用至每個類別的篩選層級，選取無、低、中或高。
  
  您可以選擇為提示和回應設定不同的篩選條件層級。
4. 針對內容篩選條件層，選擇您希望防護機制用於篩選文字型提示和回應的保護層。如需詳細資訊，請參閱防護機制政策的防護層。
5. 選擇下一步以視需要設定其他政策，或跳至檢閱並建立以完成建立防護機制。
檢閱防護機制的設定。
1. 在您要進行變更的任何區段中選取編輯。
2. 設定政策完成後，請選取建立以建立防護機制。

API

透過傳送 CreateGuardrail 請求來設定防護機制的內容篩選條件。請求格式如下：


POST /guardrails HTTP/1.1
Content-type: application/json

{
   "blockedInputMessaging": "string",
   "blockedOutputsMessaging": "string",
   "contentPolicyConfig": { 
      "filtersConfig": [ 
         {
            "inputAction": "BLOCK | NONE",
            "inputModalities": [ "TEXT" ], 
            "inputStrength": "NONE | LOW | MEDIUM | HIGH",
            "outputStrength": "NONE | LOW | MEDIUM | HIGH",
            "type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT"
         }
      ],
      "tierConfig": { 
         "tierName": "CLASSIC | STANDARD"
      }
   },
   "crossRegionConfig": { 
      "guardrailProfileIdentifier": "string"
   },
   "description": "string",
   "name": "string"
}

為防護機制指定 name 和 description。
指定當防護機制成功封鎖 blockedInputMessaging 和 blockedOutputsMessaging 欄位中的提示或模型回應時的訊息。
為 contentPolicyConfig 物件的可用有害類別指定篩選條件強度。

filtersConfig 清單中的每個項目都與有害類別有關。如需詳細資訊，請參閱使用內容篩選條件封鎖有害的單字和對話。如需內容篩選條件中欄位的詳細資訊，請參閱 ContentFilter。
- (選用) 對於 inputAction 和 outputAction，指定當防護機制在提示和回應中偵測到有害內容時所採取的動作。
- (選用) 指定在提示中使用 inputAction 或在回應中使用 outputAction 偵測到有害內容時所要採取的動作。選擇 BLOCK 以封鎖內容並取代為封鎖的訊息，或選擇 NONE 以不採取任何動作，但傳回偵測資訊。如需詳細資訊，請參閱用於處理 Amazon Bedrock 防護機制偵測到之有害內容的選項。
- 在 inputStrength 欄位中指定提示的篩選條件強度，並在 outputStrength 欄位中指定模型回應的篩選條件強度。
- 在 type 欄位中指定類別。
(選用) 在 contentPolicyConfig 物件內的 tierConfig 物件中指定防護機制的防護層。選項包括 STANDARD 和 CLASSIC 層。

如需詳細資訊，請參閱防護機制政策的防護層。
(選用) 若要啟用跨區域推論，請在 crossRegionConfig 物件中指定防護機制設定檔。這是使用 STANDARD 層時的必要項目。

回應格式如下所示：


HTTP/1.1 202
Content-type: application/json

{
   "createdAt": "string",
   "guardrailArn": "string",
   "guardrailId": "string",
   "version": "string"
}

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

設定內容篩選條件

內容篩選條件 (影像)