ガードレールを作成する
Amazon Bedrock のガードレールは、望ましくないコンテンツや有害なコンテンツを回避し、プライバシー保護のために機密情報を削除またはマスクするように設定できるさまざまなフィルタリングポリシーのコレクションで構成されています。
ガードレールでは、次のポリシーを設定できます。
コンテンツフィルター – 憎悪、侮辱、性的および暴力的な表現、不正行為 (犯罪活動を含む)、プロンプト攻撃 (プロンプトインジェクションやジェイルブレイク) などの有害なコンテンツを含むテキストと画像について、自然言語の入力プロンプトまたはモデルレスポンスを別々にブロックできるようにしきい値を設定できます。例えば、e コマースサイトは、憎悪や暴力などの不適切な言語や画像を使用しないようにオンラインアシスタントを設計できます。
-
プロンプト攻撃 – プロンプト攻撃とプロンプトインジェクションを検出してフィルタリングするのに役立ちます。モデレーションをバイパスする、指示を上書きする、または有害なコンテンツを生成することを目的としたプロンプトを検出できます。
拒否トピック — 生成 AI アプリケーション内で回避するトピックのセットを定義できます。例えば、銀行アシスタントアプリケーションは、違法な投資アドバイスに関連するトピックを回避するのに役立つように設計されています。
ワードフィルター – ユーザーと生成 AI アプリケーション間のインタラクションで検出してブロックする一連のカスタムのワードまたはフレーズ (完全一致) を設定できます。例えば、冒涜的な言葉、競合相手の名前などの特定のカスタムワード、またはその他の不快な言葉を検出してブロックできます。
機密情報フィルター – ユーザー入力と FM レスポンスで標準形式の個人を特定できる情報 (PII) やカスタム正規表現エンティティなどの機密コンテンツを検出するのに役立ちます。ユースケースに基づいて、機密情報を含む入力を拒否したり、FM レスポンスで編集したりできます。例えば、顧客とエージェントの会話トランスクリプトから概要を生成しながら、ユーザーの個人情報を編集できます。
コンテキストグラウンディングチェック - ソース情報に基づいていない (事実上不正確であるか、新しい情報が追加されている) か、ユーザーのクエリとは無関係である場合、モデルレスポンスのハルシネーションを検出してフィルタリングするのに役立ちます。例えば、モデルレスポンスが、取得されたパッセージ内の情報から逸脱している場合、またはユーザーによる質問に回答していない場合は、RAG アプリケーション (検索拡張生成) のレスポンスをブロックまたはフラグ付けできます。
自動推論チェック – モデルレスポンスが定義した論理ルールとポリシーに準拠していることを検証するのに役立ちます。自然言語を使用して推論要件を指定するポリシーを作成できます。ガードレールは、モデル出力がこれらの論理制約に準拠しているかどうかを評価します。例えば、カスタマーサービスのチャットボットが実際に在庫がある製品のみを推奨するようにしたり、財務上のアドバイスが規制コンプライアンスのルールに従っていることを確認したりできます。
注記
上記のポリシーによってブロックされたコンテンツはすべて、Amazon Bedrock モデル呼び出しログにプレーンテキストとして表示されます (ログを有効にしている場合)。ブロックされたコンテンツをログにプレーンテキストとして表示しない場合は、Amazon Bedrock 呼び出しログを無効にすることができます。
ガードレールには、プロンプトとユーザーのレスポンスがブロックされたときのフィルターとメッセージングが少なくとも 1 つ含まれている必要があります。デフォルトのメッセージングを使用することもできます。「ガードレールを変更する」の手順に従って後からフィルターを追加し、ガードレールで反復処理することができます。