Amazon Bedrock ガードレールが検出した有害なコンテンツを処理するためのオプション - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Bedrock ガードレールが検出した有害なコンテンツを処理するためのオプション

Amazon Bedrock ガードレールがプロンプト (inputAction) とレスポンス (outputAction) で有害なコンテンツを検出した場合に、ランタイムで実行するアクションを設定できます。

ガードレールのフィルタリングポリシーは、モデルの入力とレスポンスで有害なコンテンツが検出された場合、以下のアクションをサポートします。

  • ブロック – コンテンツをブロックし、ブロックされたというメッセージに置き換えます。

  • マスク – コンテンツを匿名化し、識別子タグ ({NAME}{EMAIL} など) に置き換えます。

    このオプションは、機密情報フィルターでのみ使用できます。詳細については、「機密情報フィルターを使用して会話から PII を削除する」を参照してください。

  • 検出 – アクションは実行せず、ガードレールが検出したコンテンツを証跡レスポンスで返します。このオプションは、検出モードと呼ばれ、ガードレールが期待どおりに動作しているかどうかを評価するのに役立ちます。

検出モードを使用したガードレール評価

Amazon Bedrock のガードレールポリシーは検出モードをサポートしているため、コンテンツのブロックなどのアクションを適用する必要なく、ガードレールのパフォーマンスを評価できます。

検出モードを使用すると、以下の利点があります。

  • カスタマーエクスペリエンスに影響を与えずに、ガードレールのポリシーのさまざまな組み合わせと強度をテストできます。

  • 偽陽性や陰性を分析し、それに応じてポリシー設定を調整できます。

  • ガードレールは、期待どおりに動作することを確認した後にのみデプロイします。

例: 検出モードを使用したコンテンツフィルターの評価

例えば、コンテンツフィルターの強度が「HIGH」のポリシーを設定するとします。この設定に基づいて、ガードレールは評価で「LOW」の信頼度を返した場合でもコンテンツをブロックします。

この動作を理解するには (また、アプリケーションが予期しないコンテンツをブロックしないようにするには)、ポリシーアクションを「NONE」として設定できます。証跡レスポンスは次のようになります。

{ "assessments": [{ "contentPolicy": { "filters": [{ "action": "NONE", "confidence": "LOW", "detected": true, "filterStrength": "HIGH", "type": "VIOLENCE" }] } }] }

これにより、ガードレール評価をプレビューし、「VIOLENCE」が検出されたことを確認できますが (true)、「NONE」に設定したためアクションは実行されなかったことを確認できます。

そのテキストをブロックしない場合は、フィルター強度を「MEDIUM」または「LOW」に調整して評価をやり直すことができます。必要な結果が得られたら、ポリシーアクションを「BLOCK」または「ANONYMIZE」に更新できます。