検出モードを使用したガードレール評価例: 検出モードを使用したコンテンツフィルターの評価

Amazon Bedrock ガードレールが検出した有害なコンテンツを処理するためのオプション

Amazon Bedrock ガードレールがプロンプト (inputAction) とレスポンス (outputAction) で有害なコンテンツを検出した場合に、ランタイムで実行するアクションを設定できます。

ガードレールのフィルタリングポリシーは、モデルの入力とレスポンスで有害なコンテンツが検出された場合、以下のアクションをサポートします。

ブロック – コンテンツをブロックし、ブロックされたというメッセージに置き換えます。
マスク – コンテンツを匿名化し、識別子タグ ({NAME} や {EMAIL} など) に置き換えます。

このオプションは、機密情報フィルターでのみ使用できます。詳細については、「機密情報フィルターを使用して会話から PII を削除する」を参照してください。
検出 – アクションは実行せず、ガードレールが検出したコンテンツを証跡レスポンスで返します。このオプションは、検出モードと呼ばれ、ガードレールが期待どおりに動作しているかどうかを評価するのに役立ちます。

検出モードを使用したガードレール評価

Amazon Bedrock のガードレールポリシーは検出モードをサポートしているため、コンテンツのブロックなどのアクションを適用する必要なく、ガードレールのパフォーマンスを評価できます。

検出モードを使用すると、以下の利点があります。

カスタマーエクスペリエンスに影響を与えずに、ガードレールのポリシーのさまざまな組み合わせと強度をテストできます。
偽陽性や陰性を分析し、それに応じてポリシー設定を調整できます。
ガードレールは、期待どおりに動作することを確認した後にのみデプロイします。

例: 検出モードを使用したコンテンツフィルターの評価

例えば、コンテンツフィルターの強度が「HIGH」のポリシーを設定するとします。この設定に基づいて、ガードレールは評価で「LOW」の信頼度を返した場合でもコンテンツをブロックします。

この動作を理解するには (また、アプリケーションが予期しないコンテンツをブロックしないようにするには)、ポリシーアクションを「NONE」として設定できます。証跡レスポンスは次のようになります。


{
    "assessments": [{
        "contentPolicy": {
            "filters": [{
                "action": "NONE",
                "confidence": "LOW",
                "detected": true,
                "filterStrength": "HIGH",
                "type": "VIOLENCE"
            }]
        }
    }]
}

これにより、ガードレール評価をプレビューし、「VIOLENCE」が検出されたことを確認できますが (true)、「NONE」に設定したためアクションは実行されなかったことを確認できます。

そのテキストをブロックしない場合は、フィルター強度を「MEDIUM」または「LOW」に調整して評価をやり直すことができます。必要な結果が得られたら、ポリシーアクションを「BLOCK」または「ANONYMIZE」に更新できます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

コンテキストグラウンディングチェックの追加

Amazon Bedrock ガードレールに自動推論チェックを追加する