翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
ガードレールを作成する
Amazon Bedrock ガードレールには、望ましくないコンテンツや有害なコンテンツを回避し、プライバシー保護のために機密情報を削除またはマスクするように設定できるフィルターが用意されています。
Amazon Bedrock ガードレールでは、次のフィルターを設定できます。
-
コンテンツフィルター — このフィルターは、入力プロンプトまたはモデルレスポンス (推論コンテンツを除く) の有害なテキストまたは画像コンテンツを検出してフィルタリングするのに役立ちます。フィルタリングは、ヘイト、侮辱、性的、暴力、不正行為、プロンプト攻撃など、事前に定義された特定の有害なコンテンツカテゴリの検出に基づいて行われます。ユースケースに基づいて、これらのカテゴリごとにフィルタ強度を設定できます。標準階層では、望ましくないコンテンツの検出を拡張して、コメント、変数名と関数名、文字列リテラルなどのコード要素内の有害なコンテンツから保護します。
-
プロンプト攻撃 — このフィルターは、コンテンツフィルター内のカテゴリとして提供され、ジェイルブレーク、プロンプトインジェクション、プロンプト漏洩などのプロンプト攻撃を検出してフィルタリングするのに役立ちます (標準階層のみ)。この機能は、コンテンツのモデレーションを回避したり、指示を上書きしたり、有害なコンテンツを生成したりすることを目的としたプロンプトを検出するのに役立ちます。
-
拒否トピック — 生成 AI アプリケーション内で回避するトピックのセットを定義できます。例えば、銀行アシスタントアプリケーションは、違法な投資アドバイスに関連するトピックを回避するのに役立つように設計されています。標準階層では、コンテンツフィルターはコードドメインに拡張されます。
-
単語フィルター — ユーザーと生成 AI アプリケーション間のやり取りを検出してブロックする一連のカスタム単語またはフレーズ (完全一致) を定義できます。たとえば、冒涜的表現 (ready-to-useオプションを使用) や、競合相手の名前などの特定のカスタム単語、またはその他の不快な単語を検出してブロックできます。
-
機密情報フィルター – ユーザー入力と FM レスポンスで標準形式の個人を特定できる情報 (PII) やカスタム正規表現エンティティなどの機密コンテンツを検出するのに役立ちます。このフィルターは、コンテキストに依存する確率的学習 (ML) ベースのソリューションです。入力プロンプトまたはモデルレスポンス内のコンテキストに基づいて機密情報を検出します。ユースケースに基づいて、機密情報を含む入力とレスポンスをブロックまたはマスクできます。例えば、顧客とエージェントの会話トランスクリプトから概要を生成しながら、ユーザーの個人情報を編集できます。
-
コンテキストグラウンディングチェック - ソース情報に基づいていない (事実上不正確であるか、新しい情報が追加されている) か、ユーザーのクエリとは無関係である場合、モデルレスポンスのハルシネーションを検出してフィルタリングするのに役立ちます。例えば、モデルレスポンスが取得されたパッセージの情報から逸脱している場合、またはユーザーからの質問に回答しない場合、RAG (取得拡張生成) アプリケーションでレスポンスをブロックまたはフラグ付けできます。
-
自動推論チェック – モデルレスポンスが定義した論理ルールとポリシーに準拠していることを検証するのに役立ちます。推論要件を指定する自然言語を使用してポリシーを作成できます。自動推論チェックは、モデル出力がこれらの論理制約に準拠しているかどうかを評価します。たとえば、カスタマーサービスチャットボットがインベントリで利用可能な製品のみを推奨するようにしたり、財務上のアドバイスが規制コンプライアンスルールに従っていることを確認したりできます。
注記
上記のポリシーによってブロックされたコンテンツはすべて、Amazon Bedrock モデル呼び出しログにプレーンテキストとして表示されます (ログを有効にしている場合)。ブロックされたコンテンツをログにプレーンテキストとして表示しない場合は、Amazon Bedrock 呼び出しログを無効にすることができます。
ガードレールには、プロンプトとユーザーのレスポンスがブロックされたときのフィルターとメッセージングが少なくとも 1 つ含まれている必要があります。デフォルトのメッセージングを使用することもできます。「ガードレールを変更する」の手順に従って後からフィルターを追加し、ガードレールで反復処理することができます。