使用內容篩選條件封鎖有害的單字和對話 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用內容篩選條件封鎖有害的單字和對話

Amazon Bedrock Guardrails 支援內容篩選條件,以協助偵測和篩選自然語言的有害使用者輸入和模型產生的輸出,以及 Standard 層中的程式碼相關內容。下列類別支援內容篩選條件:

仇恨

  • 描述因身份 (例如種族、民族、性別、宗教、性取向、能力和國籍) 而歧視、批評、侮辱、譴責或做出非人性化的輸入提示和模型回應。

侮辱

  • 描述輸入提示和模型回應,包括貶低、羞辱、模擬、侮辱或輕視語言。這種類型的語言也被標記為霸凌。

性愛相關

  • 描述使用直接或間接引用身體部位、身體特徵或性別,表現出性興趣、活動或激起性欲的語言的輸入提示和模型回應。

暴力

  • 描述輸入提示和模型回應,包括對個人、群體或實物造成身體痛苦、傷害或損害的美化或威脅。

不法行為

  • 描述輸入提示和模型回應,這些提示和模型回應會尋找或提供有關參與犯罪活動的資訊,或是傷害、詐騙或利用個人、群體或機構。

設定防護機制的內容篩選條件

您可以使用 AWS 管理主控台或 Amazon Bedrock API 來設定護欄的內容篩選條件。

Console
  1. AWS 管理主控台使用具有使用 Amazon Bedrock 主控台之許可的 IAM 身分登入 。接著,開啟位於 https://console.aws.amazon.com/bedrock 的 Amazon Bedrock 主控台。

  2. 從左側導覽窗格中,選擇防護機制,然後選擇建立防護機制

  3. 提供防護機制詳細資訊頁面中,執行下列動作:

    1. 防護機制詳細資訊區段中,提供防護機制的名稱和選用的描述

    2. 封鎖提示的訊息中,輸入套用防護機制時顯示的訊息。選取為回應套用相同的封鎖訊息核取方塊,以在將防護機制套用至回應時,使用相同的訊息。

    3. (選用) 若要為您的防護機制啟用跨區域推論,請展開跨區域推論,然後選取為您的防護機制啟用跨區域推論。選擇防護機制設定檔,定義可路由防護機制推論請求的目的地 AWS 區域。

    4. (選用) 根據預設,您的護欄會使用 加密AWS 受管金鑰。若要使用您自己的客戶受管 KMS 金鑰,請展開 KMS 金鑰選取範圍,然後選取自訂加密設定 (進階) 核取方塊。

      您可以選取現有的AWS KMS金鑰,或選取建立金鑰以建立新的AWS KMS金鑰

    5. (選用) 若要將標籤新增至防護機制,請展開標籤。然後,為您定義的每個標籤選取新增標籤

      如需詳細資訊,請參閱標記 Amazon Bedrock 資源

    6. 選擇下一步

  4. 設定內容篩選條件頁面上,執行下列動作,設定您想要篩選掉與 使用內容篩選條件封鎖有害的單字和對話 中所定義之類別相關內容的強度:

    1. 選取設定有害類別篩選條件。選取文字和/或影像,從提示或進入模型的回應篩選文字或影像內容。針對您要套用至每個類別的篩選層級,選取無、低、中或高。您可以選擇為提示或回應設定不同的篩選條件層級。您可以在有害類別中選取提示攻擊的篩選條件。設定您希望每個篩選條件對於使用者提供給模型之提示的嚴格程度。

    2. 選擇封鎖偵測 (無動作),判斷您的防護機制在提示和回應中偵測到有害內容時要採取的動作。

      如需詳細資訊,請參閱用於處理 Amazon Bedrock 防護機制偵測到之有害內容的選項

    3. 設定閾值中,針對您要套用至每個類別的篩選層級,選取無、低、中或高

      您可以選擇為提示和回應設定不同的篩選條件層級。

    4. 針對內容篩選條件層,選擇您希望防護機制用於篩選文字型提示和回應的保護層。如需詳細資訊,請參閱防護機制政策的防護層

    5. 選擇下一步以視需要設定其他政策,或跳至檢閱並建立以完成建立防護機制。

  5. 檢閱防護機制的設定。

    1. 在您要進行變更的任何區段中選取編輯

    2. 設定政策完成後,請選取建立以建立防護機制。

API

透過傳送 CreateGuardrail 請求來設定防護機制的內容篩選條件。請求格式如下:

POST /guardrails HTTP/1.1 Content-type: application/json { "blockedInputMessaging": "string", "blockedOutputsMessaging": "string", "contentPolicyConfig": { "filtersConfig": [ { "inputAction": "BLOCK | NONE", "inputModalities": [ "TEXT" ], "inputStrength": "NONE | LOW | MEDIUM | HIGH", "outputStrength": "NONE | LOW | MEDIUM | HIGH", "type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT" } ], "tierConfig": { "tierName": "CLASSIC | STANDARD" } }, "crossRegionConfig": { "guardrailProfileIdentifier": "string" }, "description": "string", "name": "string" }
  • 為防護機制指定 namedescription

  • 指定當防護機制成功封鎖 blockedInputMessagingblockedOutputsMessaging 欄位中的提示或模型回應時的訊息。

  • contentPolicyConfig 物件的可用有害類別指定篩選條件強度。

    filtersConfig 清單中的每個項目都與有害類別有關。如需詳細資訊,請參閱使用內容篩選條件封鎖有害的單字和對話。如需內容篩選條件中欄位的詳細資訊,請參閱 ContentFilter

    • (選用) 對於 inputActionoutputAction,指定當防護機制在提示和回應中偵測到有害內容時所採取的動作。

    • (選用) 指定在提示中使用 inputAction 或在回應中使用 outputAction 偵測到有害內容時所要採取的動作。選擇 BLOCK 以封鎖內容並取代為封鎖的訊息,或選擇 NONE 以不採取任何動作,但傳回偵測資訊。如需詳細資訊,請參閱用於處理 Amazon Bedrock 防護機制偵測到之有害內容的選項

    • inputStrength 欄位中指定提示的篩選條件強度,並在 outputStrength 欄位中指定模型回應的篩選條件強度。

    • type 欄位中指定類別。

  • (選用) 在 contentPolicyConfig 物件內的 tierConfig 物件中指定防護機制的防護層。選項包括 STANDARDCLASSIC 層。

    如需詳細資訊,請參閱防護機制政策的防護層

  • (選用) 若要啟用跨區域推論,請在 crossRegionConfig 物件中指定防護機制設定檔。這是使用 STANDARD 層時的必要項目。

回應格式如下所示:

HTTP/1.1 202 Content-type: application/json { "createdAt": "string", "guardrailArn": "string", "guardrailId": "string", "version": "string" }