本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 Amazon Bedrock 防護機制偵測和篩選有害內容
Amazon Bedrock Guardrails 提供可設定的保護措施,協助您建置安全的生成式 AI 應用程式。透過跨基礎模型 (FMs) 的全面安全與隱私權控制,Amazon Bedrock Guardrails 提供一致的使用者體驗,以協助偵測和篩選不需要的內容,並保護可能存在於使用者輸入或模型回應中的敏感資訊 (不包括推理內容區塊)。
您可以在多個使用案例和應用程式中使用 Amazon Bedrock Guardrail。以下是幾個範例:
-
協助篩選有害使用者輸入和有毒模型回應的聊天機器人應用程式。
-
銀行應用程式,可協助封鎖與尋求或提供非法投資建議相關聯的使用者查詢或模型回應。
-
呼叫中心應用程式摘要使用者與客服人員之間的對話文字記錄,可以使用防護機制來修訂使用者的個人身分識別資訊 (PII),以保護使用者隱私權。
Amazon Bedrock Guardrails 提供下列保護措施 (也稱為篩選條件) 來偵測和篩選不需要的內容:
-
內容篩選條件 – 此篩選條件可協助您偵測和篩選輸入提示或模型回應中的有害文字或影像內容。根據偵測某些預先定義的有害內容類別來進行篩選:仇恨、侮辱、性、暴力、不法行為和提示攻擊。您可以根據您的使用案例,為每個類別設定篩選強度。Classic 和 Standard 層都支援這些類別。使用 Standard 層時,不需要的內容的偵測會延伸到保護程式碼元素中引入的有害內容,包括註解、變數和函數名稱,以及字串常值。
-
拒絕的主題 – 您可以定義一組在應用程式內容中不需要的主題。如果在使用者查詢或模型回應中偵測到,則篩選條件將協助封鎖它們。使用 Standard 層時,不需要的內容的偵測會延伸到保護程式碼元素中引入的有害內容,包括註解、變數和函數名稱,以及字串常值。
-
單字篩選條件 – 您可以定義一組自訂單字或片語 (完全相符),以在最終使用者和生成式 AI 應用程式之間的互動中加以封鎖。例如,您可以封鎖褻瀆 (使用ready-to-use型選項),以及競爭對手名稱等自訂單字。
-
敏感資訊篩選條件 – 您可以設定此篩選條件,以協助封鎖或遮罩敏感資訊,例如使用者輸入和模型回應中的個人身分識別資訊 (PII)。根據 SSN 號碼、出生日期、地址等實體中敏感資訊的概率偵測,進行封鎖或遮罩。此篩選條件也允許設定模式 (自訂 regex) 的規則表達式型偵測。
-
內容接地檢查 – 此篩選條件可協助您偵測模型回應中的幻覺,如果這些幻覺未在來源中接地 (實際上不準確或新增新資訊),或與使用者的查詢無關。例如,您可以在擷取擴增產生 (RAG) 應用程式中封鎖或標記回應。如果模型回應偏離擷取來源中的資訊,或未回答使用者的問題。
-
自動化推理檢查 – 此篩選條件可協助您根據一組邏輯規則驗證基礎模型回應的準確性。您可以使用自動推理檢查來偵測幻覺、建議更正,並在模型回應中反白未陳述的假設。
除了上述篩選條件之外,您也可以設定當使用者輸入或模型回應違反護欄中定義的篩選條件時,要傳回給使用者的訊息。
使用不同的組態進行實驗和基準測試,並使用內建測試時段來確保結果符合您的使用案例需求。當您建立防護機制時,工作草稿會自動供您反覆修改。使用不同的組態進行實驗,並使用內建測試視窗來查看它們是否適合您的使用案例。如果您對一組組態感到滿意,可以建立防護機制的版本,並將其與支援的基礎模型搭配使用。
您可以透過指定防護機制 ID 和版本,在推論 API 調用期間直接搭配 FM 使用防護機制。防護機制也可以直接透過 ApplyGuardrail API 使用,而無需調用基礎模型。如果使用護欄,它會根據定義的篩選條件評估輸入提示和 FM 完成。
對於擷取擴增產生 (RAG) 或對話式應用程式,您可能需要在捨棄系統指示、搜尋結果、對話歷史記錄或幾個簡短範例時,僅評估使用者輸入提示。若要選擇性地評估輸入提示的區段,請參閱僅評估輸入提示區段的功能可透過 AWS 將標籤套用至使用者輸入以篩選內容 開發套件使用,而不適用於管理主控台,包括 Bedrock 遊樂場和 Bedrock Guardrails 管理主控台。