建立護欄 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立護欄

Amazon Bedrock Guardrails 包含一組不同的篩選政策,您可以設定這些政策來協助避免不良和有害的內容,並移除或遮罩敏感資訊,以保護隱私權。

您可以在護欄中設定下列政策:

  • 內容篩選條件 — 您可以設定閾值,以協助封鎖文字自然語言的輸入提示或模型回應,以及針對包含有害內容的影像分別封鎖輸入提示或模型回應,例如:仇恨、侮辱、性、暴力、不當行為 (包括犯罪活動) 和提示攻擊 (提示注入和入獄)。例如,電子商務網站可以設計其線上助理,以避免使用不當的語言和/或影像,例如仇恨或暴力。

  • 提示攻擊 — 可協助您偵測和篩選提示攻擊和提示注入。協助偵測旨在繞過管制、覆寫指示或產生有害內容的提示。

  • 拒絕的主題 — 您可以定義一組主題,以避免在生成式 AI 應用程式中發生。例如,銀行助理應用程式的設計可協助避免與非法投資建議相關的主題。

  • 單字篩選條件 — 您可以設定一組自訂單字或片語 (完全相符),以偵測和封鎖使用者與生成式 AI 應用程式之間的互動。例如,您可以偵測和封鎖褻瀆性,以及特定自訂單字,例如競爭對手名稱或其他令人反感的單字。

  • 敏感資訊篩選條件 — 可協助您偵測使用者輸入和 FM 回應中標準格式或自訂 regex 實體的敏感內容,例如個人身分識別資訊 (PII)。根據使用案例,您可以拒絕包含敏感資訊的輸入,或在 FM 回應中對其進行修訂。例如,您可以修訂使用者的個人資訊,同時從客戶和客服人員對話文字記錄產生摘要。

  • 內容基礎檢查 — 如果模型回應中的幻覺在來源資訊中未接地 (事實上不準確或新增新資訊),或與使用者的查詢無關,則可協助您偵測和篩選這些幻覺。例如,如果模型回應偏離擷取段落中的資訊或未回答使用者的問題,您可以封鎖或標記 RAG 應用程式 (擷取擴增的產生) 中的回應。

注意

如果您已啟用上述政策的所有封鎖內容,都會在 Amazon Bedrock 模型調用日誌中顯示為純文字。如果您不希望封鎖的內容在日誌中顯示為純文字,您可以停用 Amazon Bedrock 調用日誌。

當提示和使用者回應遭到封鎖時,護欄必須至少包含一個篩選條件和訊息。您可以選擇使用預設訊息。您可以稍後遵循 中的步驟,在護欄上新增篩選條件並反覆執行修改護欄