コンテンツフィルターを使用して有害な単語や会話をブロックする
Amazon Bedrock のガードレールは、自然言語で有害なユーザー入力とモデル生成出力を検出してフィルタリングするのに役立つコンテンツフィルターに対応しています。コンテンツフィルターは、次のカテゴリでサポートされています。
憎悪
人種、民族、性同一性、宗教、性的指向、能力、出身国、その他のアイデンティティグループなど、アイデンティティに基づいて個人またはグループを差別、批判、侮辱、否定、非人間化する入力プロンプトおよびモデルの応答。
侮辱
侮辱的、屈辱的、嘲笑的、侮辱的、または軽蔑的な言葉を含む入力プロンプトとモデルの応答。この種の発言は、「いじめ」とも呼ばれます。
性的
体の一部、身体的特徴、性別への直接的または間接的な言及により、性的関心、活動、性的嗜好を示す入力プロンプトとモデルの応答。
Violence (暴力
人、グループ、モノに身体的苦痛、傷、または傷害を与えることへの賛美または脅威を含む入力プロンプトとモデルの応答。
不正行為
犯罪活動への関与、人、グループ、機関への危害、詐欺、または利用に関する情報を求めたり、提供したりする入力プロンプトとモデルの応答。
ガードレール用のコンテンツフィルターを設定する
AWS マネジメントコンソールまたは Amazon Bedrock API を使用して、ガードレールのコンテンツフィルターを設定できます。
- Console
-
Amazon Bedrock コンソールを使用するためのアクセス許可を持つ IAM ID を使用して、AWS マネジメントコンソールにサインインします。Amazon Bedrock コンソール (https://console.aws.amazon.com/bedrock
) を開きます。 -
左側のナビゲーションペインで [ガードレール] を選択し、次に [ガードレールを作成] を選択します。
-
[ガードレールの詳細を提供] ページで、次の操作を行います。
-
[ガードレールの詳細] セクションで、ガードレールの [名前] とオプションの [説明] に入力します。
-
[ブロックされたプロンプトのメッセージ] に、ガードレールが適用されたときに表示されるメッセージを入力します。[応答に同じブロックメッセージを適用します] チェックボックスをオンにして、応答でガードレールが適用されたときに同じメッセージを使用します。
-
(オプション) ガードレールのクロスリージョン推論を有効にするには、[クロスリージョン推論] を展開し、[ガードレールのクロスリージョン推論を有効にする] を選択します。ガードレール推論リクエストをルーティングできる送信先 AWS リージョンを定義するガードレールプロファイルを選択します。
-
(オプション) デフォルトでは、ガードレールは AWS マネージドキーで暗号化されます。独自のカスタマーマネージド KMS キーを使用するには、[KMS キーの選択] を展開して、[暗号化設定をカスタマイズ (詳細)] チェックボックスをオンにします。
既存の AWS KMS キーを選択するか、[AWS KMS キーを作成] を選択して新しいキーを作成できます。
-
(オプション) ガードレールにタグを追加するには、[タグ] を展開します。次に、定義するタグごとに [新しいタグを追加] を選択します。
詳細については、「Amazon Bedrock リソースにタグ付け」を参照してください。
-
[次へ] を選択します。
-
-
(オプション) [コンテンツフィルターの設定] ページで次を実行して、「コンテンツフィルターを使用して有害な単語や会話をブロックする」で定義されているカテゴリに関連するコンテンツのフィルター強度を設定します。
-
[有害カテゴリフィルターを設定] を選択します。モデルに対するプロンプトまたは応答からテキストもしくは画像のコンテンツをフィルタリングするために、[テキスト] および/または [画像] を選択します。各カテゴリに適用するフィルターのレベルについて、[なし]、[低]、[中]、または [高] を選択します。プロンプトまたは応答に対して異なるフィルターレベルを選択できます。有害なカテゴリのプロンプト攻撃のフィルターを選択できます。ユーザーがモデルに提供するプロンプトに対して、各フィルターの厳格度レベルを設定します。
-
[ブロック] または [検出 (アクションなし)] を選択して、ガードレールがプロンプトと応答で有害なコンテンツを検出したときに実行するアクションを決定します。
詳細については、「Amazon Bedrock ガードレールが検出した有害なコンテンツを処理するためのオプション」を参照してください。
-
[しきい値を設定] で、各カテゴリに適用するフィルターのレベルについて、[なし]、[低]、[中]、または [高] を選択します。
プロンプトとレスポンスに異なるフィルターレベルを設定することができます。
-
[コンテンツフィルター階層] で、ガードレールでテキストベースのプロンプトとレスポンスをフィルタリングするために使用するセーフガード階層を選択します。詳細については、「ガードレールポリシーの保護層」を参照してください。
-
必要に応じて [次へ] を選択して他のポリシーを構成するか、[スキップして確認および作成] を選択してガードレールの作成を完了します。
-
-
ガードレールの設定を確認します。
-
変更するセクションで [編集] を選択します。
-
ポリシーの設定が完了したら、[作成] を選択してガードレールを作成します。
-
- API
-
CreateGuardrail リクエストを送信して、ガードレールのコンテンツフィルターを設定します。リクエストの形式は次のとおりです。
POST /guardrails HTTP/1.1 Content-type: application/json { "blockedInputMessaging": "string", "blockedOutputsMessaging": "string", "contentPolicyConfig": { "filtersConfig": [ { "inputAction": "BLOCK | NONE", "inputModalities": [ "TEXT" ], "inputStrength": "NONE | LOW | MEDIUM | HIGH", "outputStrength": "NONE | LOW | MEDIUM | HIGH", "type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT" } ], "tierConfig": { "tierName": "CLASSIC | STANDARD" } }, "crossRegionConfig": { "guardrailProfileIdentifier": "string" }, "description": "string", "name": "string" }-
ガードレールの
nameとdescriptionを指定します。 -
blockedInputMessagingおよびblockedOutputsMessagingフィールドでプロンプトまたはモデルレスポンスをガードレールが正常にブロックしたときのメッセージを指定します。 -
contentPolicyConfigオブジェクトで使用できる有害なカテゴリのフィルター強度を指定します。filtersConfigリスト内の各項目は、有害なカテゴリに関連しています。詳細については、「コンテンツフィルターを使用して有害な単語や会話をブロックする」を参照してください。コンテンツフィルターのフィールドの詳細については、「ContentFilter」を参照してください。-
(オプション)
inputActionおよびoutputActionで、ガードレールがプロンプトと応答で有害なコンテンツを検出したときに実行するアクションを指定します。 -
(オプション)
inputActionを使用してプロンプトで有害なコンテンツが検出された場合、またはoutputActionを使用して応答で有害なコンテンツが検出された場合に実行するアクションを指定します。コンテンツをブロックしてブロックメッセージに置き換える場合は [BLOCK] を選択し、何もアクションを取らずに検出情報を返す場合は [NONE] を選択します。詳細については、「Amazon Bedrock ガードレールが検出した有害なコンテンツを処理するためのオプション」を参照してください。 -
inputStrengthフィールドでプロンプトのフィルター強度を指定し、outputStrengthフィールドでモデル応答のフィルター強度を指定します。 -
typeフィールドにカテゴリを指定します。
-
-
(オプション)
contentPolicyConfigオブジェクト内のtierConfigオブジェクトで、ガードレールのセーフガード階層を指定します。オプションには、STANDARD階層とCLASSIC階層が含まれます。詳細については、「ガードレールポリシーの保護層」を参照してください。
-
(オプション) クロスリージョン推論を有効にするには、
crossRegionConfigオブジェクトでガードレールプロファイルを指定します。これは、STANDARD階層を使用する場合に必要です。
応答の形式は次のようになります。
HTTP/1.1 202 Content-type: application/json { "createdAt": "string", "guardrailArn": "string", "guardrailId": "string", "version": "string" } -