翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
ガードレールを作成する
Amazon Bedrock のガードレールは、望ましくないコンテンツや有害なコンテンツを回避し、プライバシー保護のために機密情報を削除またはマスクするように設定できるさまざまなフィルタリングポリシーのコレクションで構成されています。
ガードレールでは、次のポリシーを設定できます。
コンテンツフィルター — テキストの入力プロンプトまたはモデルレスポンスを自然言語でブロックし、憎悪、侮辱、性的、暴力、不正行為 (犯罪活動を含む)、プロンプト攻撃 (プロンプトインジェクションと投獄) などの有害なコンテンツを含むイメージを個別にブロックできるようにしきい値を設定できます。たとえば、e コマースサイトは、憎しみや暴力などの不適切な言語やイメージを使用しないようにオンラインアシスタントを設計できます。
-
プロンプト攻撃 — プロンプト攻撃とプロンプトインジェクションを検出してフィルタリングするのに役立ちます。モデレーションをバイパスする、指示を上書きする、または有害なコンテンツを生成することを目的としたプロンプトを検出するのに役立ちます。
拒否トピック — 生成 AI アプリケーション内で回避するトピックのセットを定義できます。例えば、銀行アシスタントアプリケーションは、違法な投資アドバイスに関連するトピックを回避するのに役立つように設計されています。
単語フィルター — ユーザーと生成 AI アプリケーション間のやり取りを検出してブロックする一連のカスタム単語またはフレーズ (完全一致) を設定できます。例えば、冒涜的な言葉、競合相手の名前などの特定のカスタムワード、またはその他の不快な言葉を検出してブロックできます。
機密情報フィルター — 標準形式の個人を特定できる情報 (PII) や、ユーザー入力や FM レスポンスのカスタム正規表現エンティティなどの機密コンテンツを検出するのに役立ちます。ユースケースに基づいて、機密情報を含む入力を拒否したり、FM レスポンスで編集したりできます。例えば、顧客とエージェントの会話トランスクリプトから概要を生成しながら、ユーザーの個人情報を編集できます。
コンテキストグラウンディングチェック — モデルレスポンスのハルシネーションがソース情報に基づいていない場合 (実際に不正確であるか、新しい情報を追加した場合)、またはユーザーのクエリと無関係である場合に、検出してフィルタリングするのに役立ちます。例えば、モデルレスポンスが、取得されたパッセージ内の情報から逸脱している場合、またはユーザーによる質問に回答していない場合は、RAG アプリケーション (検索拡張生成) のレスポンスをブロックまたはフラグ付けできます。
自動推論チェック — モデルレスポンスが定義した論理ルールとポリシーに準拠していることを検証するのに役立ちます。推論要件を指定する自然言語を使用してポリシーを作成できます。ガードレールは、モデル出力がこれらの論理制約に準拠しているかどうかを評価します。たとえば、カスタマーサービスチャットボットが実際にインベントリで利用可能な製品のみを推奨するようにしたり、財務上のアドバイスが規制コンプライアンスルールに従っていることを確認したりできます。
注記
上記のポリシーからブロックされたコンテンツはすべて、有効にした場合、Amazon Bedrock モデル呼び出しログにプレーンテキストとして表示されます。ブロックされたコンテンツをログにプレーンテキストとして表示しない場合は、Amazon Bedrock 呼び出しログを無効にすることができます。
ガードレールには、プロンプトとユーザーのレスポンスがブロックされたときのフィルターとメッセージングが少なくとも 1 つ含まれている必要があります。デフォルトのメッセージングを使用することもできます。の手順に従って、後でフィルターを追加し、ガードレールを反復処理できますガードレールを変更する。