本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建立防護機制
Amazon Bedrock Guardrails 提供篩選條件,您可以設定這些篩選條件來協助避免不良和有害的內容,並移除或遮罩敏感資訊以進行隱私權保護。
您可以使用 Amazon Bedrock Guardrails 設定下列篩選條件:
-
內容篩選條件 — 此篩選條件可協助您偵測和篩選輸入提示或模型回應中的有害文字或影像內容 (不含推理內容)。根據偵測某些預先定義的有害內容類別來進行篩選:仇恨、侮辱、性、暴力、不法行為和提示攻擊。您可以根據您的使用案例,為每個類別設定篩選強度。使用 Standard 層,延伸偵測不需要的內容,以防止程式碼元素內的有害內容,包括註解、變數和函數名稱,以及字串常值。
-
提示攻擊:作為內容篩選條件中的類別提供,此篩選條件可協助您偵測和篩選提示攻擊,包括越戰、提示注入和提示洩漏 (僅限標準層)。此功能可協助您偵測旨在繞過內容管制、覆寫指示或產生有害內容的提示。
-
拒絕的主題 — 您可以定義一組主題,以避免在生成式 AI 應用程式中出現。例如,銀行助理應用程式的設計可協助避免與非法投資建議相關的主題。使用 Standard 層時,內容篩選條件會延伸至程式碼網域。
-
單字篩選條件 — 您可以定義一組自訂單字或片語 (完全相符),您想要在使用者和生成式 AI 應用程式之間的互動中偵測和封鎖這些單字或片語。例如,您可以偵測和封鎖褻瀆 (使用ready-to-use型選項),以及特定自訂字詞,例如競爭對手名稱或其他令人反感的字詞。
-
敏感資訊篩選條件 – 可協助您偵測使用者輸入和 FM 回應中標準格式或自訂 regex 實體的敏感內容,例如個人身分識別資訊 (PII)。此篩選條件是依內容而定的概率快取學習 (ML) 解決方案。它根據輸入提示或模型回應中的內容來偵測敏感資訊。根據您的使用案例,您可以封鎖或遮罩包含敏感資訊的輸入和回應。例如,您可以修訂使用者的個人資訊,同時從客戶和客服人員對話文字記錄產生摘要。
-
情境依據檢查 – 如果模型回應中的幻覺在來源資訊中未設定依據 (事實上不準確或新增新資訊),或與使用者的查詢無關,則可協助您偵測及篩選這些幻覺。例如,如果模型回應偏離擷取段落中的資訊或未回答使用者的問題,您可以在 RAG (擷取擴增的產生) 應用程式中封鎖或標記回應。
-
自動推理檢查 — 可協助您驗證模型回應是否符合您定義的邏輯規則和政策。您可以使用指定推理需求的自然語言建立政策,自動化推理檢查將評估模型輸出是否符合這些邏輯限制。例如,您可以確保客戶服務聊天機器人僅建議庫存中可用的產品,或驗證財務建議遵循法規合規規則。
注意
如果您已啟用上述政策的所有封鎖內容,則所有的封鎖內容都會在 Amazon Bedrock 模型調用日誌中顯示為純文字。如果您不希望封鎖的內容在日誌中顯示為純文字,可以停用 Amazon Bedrock 調用日誌。
當提示和使用者回應遭到封鎖時,防護機制必須至少包含一個篩選條件和訊息。您可以選擇使用預設的訊息。您可以稍後遵循 修改防護機制 中的步驟,在防護機制上新增篩選條件並反覆執行。