使用內容篩選條件封鎖有害的單字和對話 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用內容篩選條件封鎖有害的單字和對話

Amazon Bedrock Guardrails 支援內容篩選條件,以協助偵測和篩選自然語言的有害使用者輸入和模型產生的輸出。下列類別支援內容篩選條件:

仇恨

  • 描述根據身分 (例如種族、族裔、性別、宗教、性傾向、能力和原國籍) 來歧視、批評、侮辱、譴責或取消人道化人員或群組的輸入提示和模型回應。

侮辱

  • 描述輸入提示和模型回應,包括貶低、羞辱、模擬、侮辱或輕視語言。種類型的語言也被標記為霸凌。

  • 使用身體部分、身體特徵或性別的直接或間接參考,描述表示性興趣、活動或覺察的輸入提示和模型回應。

暴力

  • 描述輸入提示和模型回應,包括對人員、群組或物件造成身體痛苦、傷害或傷害的美化或威脅。

行為錯誤

  • 描述輸入提示和模型回應,以尋求或提供有關參與犯罪活動的資訊,或傷害、詐騙或利用人員、群組或機構。

設定護欄的內容篩選條件

您可以使用 AWS Management Console 或 Amazon Bedrock API 來設定護欄的內容篩選條件。

Console
  1. AWS Management Console 使用具有 Amazon Bedrock 許可的 IAM 角色登入 ,然後開啟位於 https://https://console.aws.amazon.com/bedrock/ 的 Amazon Bedrock 主控台。

  2. 從左側導覽窗格中,選擇護欄,然後選擇建立護欄

  3. 針對提供護欄詳細資訊頁面,執行下列動作:

    1. 護欄詳細資訊區段中,提供護欄的名稱和選用的描述

    2. 針對封鎖提示的訊息,輸入套用護欄時顯示的訊息。選取為回應套用相同的封鎖訊息核取方塊,以在將護欄套用至回應時使用相同的訊息。

    3. (選用) 若要為您的護欄啟用跨區域推論,請展開跨區域推論,然後選取為您的護欄啟用跨區域推論。選擇護欄設定檔,定義可路由護欄推論請求的目的地 AWS 區域 。

    4. (選用) 根據預設,您的護欄會使用 加密 AWS 受管金鑰。若要使用您自己的客戶受管 KMS 金鑰,請展開 KMS 金鑰選擇,然後選取自訂加密設定 (進階) 核取方塊。

      您可以選取現有的 AWS KMS 金鑰,或選取建立金鑰以建立新的 AWS KMS 金鑰

    5. (選用) 若要將標籤新增至護欄,請展開標籤。然後為您定義的每個標籤選取新增標籤。

      如需詳細資訊,請參閱標記 Amazon Bedrock 資源

    6. 選擇下一步

  4. 設定內容篩選條件頁面上,使用內容篩選條件封鎖有害的單字和對話執行下列動作,設定您想要篩選掉與 中定義之類別相關的內容的強度:

    1. 選取設定有害類別篩選條件。選取文字和/或影像,從提示或對模型的回應篩選文字或影像內容。針對您要套用至每個類別的篩選層級,選取無、低、中或高。您可以選擇對提示或回應具有不同的篩選條件層級。您可以在有害類別中選取提示攻擊的篩選條件。設定您希望每個篩選條件對於使用者提供給模型的提示有多嚴格。

    2. 選擇封鎖偵測 (無動作),以判斷當護欄在提示和回應中偵測到有害內容時所採取的動作。

      如需詳細資訊,請參閱用於處理 Amazon Bedrock Guardrails 偵測到之有害內容的選項

    3. 針對設定閾值,針對您要套用至每個類別的篩選層級,選取無、低、中或高

      您可以選擇對提示和回應具有不同的篩選條件層級。

    4. 對於內容篩選條件層,選擇您希望護欄用於篩選文字型提示和回應的保護層。如需詳細資訊,請參閱護欄政策的防護層

    5. 選擇下一步以視需要設定其他政策,或跳至檢閱並建立以完成建立護欄。

  5. 檢閱護欄的設定。

    1. 在您要進行變更的任何區段中選取編輯

    2. 設定政策完成後,請選取建立以建立護欄。

API

透過傳送 CreateGuardrail 請求來設定護欄的內容篩選條件。請求格式如下:

POST /guardrails HTTP/1.1 Content-type: application/json { "blockedInputMessaging": "string", "blockedOutputsMessaging": "string", "contentPolicyConfig": { "filtersConfig": [ { "inputAction": "BLOCK | NONE", "inputModalities": [ "TEXT" ], "inputStrength": "NONE | LOW | MEDIUM | HIGH", "outputStrength": "NONE | LOW | MEDIUM | HIGH", "type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT" } ], "tierConfig": { "tierName": "CLASSIC | STANDARD" } }, "crossRegionConfig": { "guardrailProfileIdentifier": "string" }, "description": "string", "name": "string" }
  • description 為護欄指定 name和 。

  • 指定當護欄成功封鎖 blockedInputMessagingblockedOutputsMessaging欄位中的提示或模型回應時的訊息。

  • contentPolicyConfig物件可用的有害類別指定篩選條件強度。

    filtersConfig 清單中的每個項目都與有害類別有關。如需詳細資訊,請參閱使用內容篩選條件封鎖有害的單字和對話。如需內容篩選條件中欄位的詳細資訊,請參閱 ContentFilter

    • (選用) 針對 inputActionoutputAction,指定當護欄在提示和回應中偵測到有害內容時所採取的動作。

    • (選用) 在提示中使用 inputAction或 回應中使用 偵測到有害內容時,指定要採取的動作outputAction。選擇BLOCK封鎖內容並以封鎖的訊息取代,或選擇不NONE採取任何動作,但傳回偵測資訊。如需詳細資訊,請參閱用於處理 Amazon Bedrock Guardrails 偵測到之有害內容的選項

    • inputStrength 欄位中指定提示的篩選條件強度,並在 outputStrength 欄位中指定模型回應的篩選條件強度。

    • type 欄位中指定 類別。

  • (選用) 在 contentPolicyConfig 物件的 tierConfig 物件中指定護欄的防護層。選項包括 STANDARDCLASSIC層。

    如需詳細資訊,請參閱護欄政策的防護層

  • (選用) 若要啟用跨區域推論,請在 crossRegionConfig 物件中指定護欄設定檔。這是使用 STANDARD層時的必要項目。

回應格式如下所示:

HTTP/1.1 202 Content-type: application/json { "createdAt": "string", "guardrailArn": "string", "guardrailId": "string", "version": "string" }