Amazon Bedrock ガードレールのコンテンツフィルターを設定する

Amazon Bedrock ガードレールを使用すると、有害なコンテンツを含むテキストやイメージのモデルプロンプトやレスポンスを自然言語でブロックするように、コンテンツフィルターを設定できます。例えば、e コマースサイトで、ヘイトスピーチや侮辱などの不適切な言語を使用しないように、オンラインアシスタントを設計できます。

フィルターの分類とブロックレベル

フィルタリングは、6 つの各カテゴリにわたるユーザー入力と FM レスポンスの信頼度分類に基づいて行われます。すべてのユーザー入力と FM レスポンスは、NONE、LOW、MEDIUM、HIGH の 4 つの強度レベルに分類されます。例えば、ステートメントが HIGH 信頼度で [憎悪] に分類される場合、そのステートメントは憎悪的なコンテンツを表す可能性は高くなります。1 つのステートメントを、さまざまな信頼レベルを持つ複数のカテゴリに分類できます。例えば、ある単一のステートメントを、HIGH 信頼度で、憎悪、LOW 信頼度で、侮辱、NONE で性的、MEDIUM 信頼度で暴力に分類できます。

フィルターの強度

上記のコンテンツフィルターのカテゴリごとにフィルターの強度を設定できます。フィルターの強度は、有害なコンテンツをフィルタリングする感度を決定します。フィルターの強度が高くなると、有害なコンテンツをフィルタリングする確率が高くなり、アプリケーションに有害なコンテンツが表示される可能性が低くなります。

フィルター強度には 4 つのレベルがあります。

なし — コンテンツフィルターが適用されません。すべてのユーザー入力と FM 生成出力が許可されます。
低 — フィルターの強度が低く設定されます。HIGH 信頼度で有害と分類されたコンテンツは確実に除外されます。NONE、LOW、または MEDIUM 信頼度で有害と分類されたコンテンツは許可されます。
中 - HIGH および MEDIUM 信頼度で有害と分類されたコンテンツは除外されます。NONE または LOW 信頼度で有害と分類されたコンテンツは許可されます。
高 — これは最も厳しいフィルタリング設定を表します。HIGH、MEDIUM、および LOW 信頼度で有害と分類されたコンテンツは確実に除外されます。無害と見なされるコンテンツは許可されます。

フィルターの強度	ブロックされたコンテンツの信頼度	コンテンツの信頼度
なし	フィルタリングなし	[なし]、[低]、[中]、[高]
低	高	[なし]、[低]、[中]
中	[高]、[中]	[なし]、[低]
高	[高]、[中]、[低]	[なし]

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ガードレールを作成する

コンテンツフィルター (テキスト)