Amazon Bedrock ガードレールを使用して有害なコンテンツを検出してフィルタリングする

Amazon Bedrock ガードレールは、安全な生成 AI アプリケーションの構築に役立つ設定可能な保護を提供します。基盤モデル (FMs) 全体の包括的な安全とプライバシーの制御により、Amazon Bedrock ガードレールは一貫したユーザーエクスペリエンスを提供し、望ましくないコンテンツを検出してフィルタリングし、ユーザー入力またはモデル応答 (推論コンテンツブロックを除く) に存在する可能性のある機密情報を保護します。

Amazon Bedrock ガードレールは、複数のユースケースやアプリケーションで使用できます。以下にいくつかの例を示します。

有害なユーザー入力と有害なモデルレスポンスをフィルタリングするのに役立つチャットボットアプリケーション。
違法な投資アドバイスを求めたり提供したりすることに関連するユーザークエリやモデルレスポンスをブロックするのに役立つバンキングアプリケーション。
コールセンターでユーザーとエージェントの会話を文字で起こして要約するアプリケーションで、ガードレールを使用して個人を特定できる情報 (PII) を秘匿化し、ユーザーのプライバシーを保護できます。

Amazon Bedrock ガードレールは、望ましくないコンテンツを検出してフィルタリングするための以下の保護 (フィルターとも呼ばれます) を提供します。

コンテンツフィルター – このフィルターは、入力プロンプトまたはモデルレスポンスで有害なテキストまたは画像コンテンツを検出してフィルタリングするのに役立ちます。フィルタリングは、ヘイト、侮辱、性的、暴力、不正行為、プロンプト攻撃など、事前に定義された特定の有害なコンテンツカテゴリの検出に基づいて行われます。ユースケースに基づいて、これらのカテゴリごとにフィルタ強度を設定できます。これらのカテゴリは、クラシック階層とスタンダード階層の両方でサポートされています。標準階層では、望ましくないコンテンツの検出が拡張され、コメント、変数名と関数名、文字列リテラルなどのコード要素内に導入された有害なコンテンツから保護されます。
拒否されたトピック – アプリケーションのコンテキストで望ましくない一連のトピックを定義できます。定義したトピックがユーザークエリやモデルレスポンスで検出された場合に、ブロックできます。標準階層では、望ましくないコンテンツの検出が拡張され、コメント、変数、関数名、文字列リテラルなどのコード要素内に導入された有害なコンテンツから保護されます。
単語フィルター – エンドユーザーと生成 AI アプリケーション間のやり取りをブロックする一連のカスタム単語またはフレーズ (完全一致) を定義できます。たとえば、冒涜的な言葉をブロック (ready-to-useオプションを使用) したり、競合相手の名前などのカスタム単語をブロックしたりできます。
機密情報フィルター – このフィルターを設定して、ユーザー入力やモデルレスポンスで個人を特定できる情報 (PII) などの機密情報をブロックまたはマスクできます。ブロックまたはマスキングは、SSN、生年月日、住所などのエンティティ内の機密情報の確率的検出に基づいて行われます。このフィルターでは、パターン (カスタム正規表現) の正規表現ベースの検出を設定することもできます。
コンテキストグラウンディングチェック – このフィルターは、モデルレスポンスの幻覚がソースで根拠がない (事実上不正確であるか、新しい情報を追加している) か、ユーザーのクエリとは無関係であるかを検出するのに役立ちます。たとえば、取得拡張生成 (RAG) アプリケーションでレスポンスをブロックまたはフラグ付けできます。モデルレスポンスが取得されたソースの情報から逸脱した場合、またはユーザーからの質問に回答しない場合。
自動推論チェック – このフィルターは、一連の論理ルールに対する基盤モデルレスポンスの精度を検証するのに役立ちます。自動推論チェックを使用すると、ハルシネーションを検出したり、修正を提案したり、モデルレスポンスで記述されていない仮定を強調したりすることができます。

上記のフィルターに加えて、ユーザー入力またはモデルレスポンスがガードレールで定義されたフィルターに違反している場合にユーザーに返されるメッセージを設定することもできます。

さまざまな設定を試してベンチマークし、組み込みのテストウィンドウを使用して、結果がユースケースの要件を満たしていることを確認してください。ガードレールを作成すると、作業中のドラフトが自動的に利用可能になり、これを繰り返し変更できます。さまざまな設定を試し、組み込みのテストウィンドウを使用して、ユースケースに適しているかどうかを確認します。一連の設定内容に満足したら、ガードレールのバージョンを作成し、サポートされている基盤モデルで使用できます。

ガードレールは、推論 API の呼び出し時にガードレール ID とバージョンを指定することで、FM で直接使用できます。ガードレールは、基盤モデルを呼び出すことなく ApplyGuardrail API から直接使用することもできます。ガードレールを使用すると、定義されたフィルターに対して入力プロンプトと FM 完了が評価されます。

検索拡張生成 (RAG) または会話アプリケーションの場合、システムの指示、検索結果、会話履歴、またはいくつかの短い例を破棄しながら、ユーザー入力プロンプトのみを評価する必要がある場合があります。入力プロンプトのセクションを選択的に評価するには、「入力プロンプトのセクションのみを評価する機能は AWS SDK から使用でき、Bedrock Playground や Bedrock ユーザー入力にタグを適用してコンテンツをフィルタリングするガードレール管理コンソールなどの管理コンソールでは使用できません」を参照してください。

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

プロンプトインジェクションのセキュリティ

概要