翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon Bedrock ガードレールを使用して有害なコンテンツを検出してフィルタリングする
Amazon Bedrock ガードレールを使用すると、ユースケースと責任ある AI ポリシーに基づいて、生成 AI アプリケーションに設定可能な保護対策が提供されます。多様なユースケースに合わせた複数のガードレールを作成し、複数の基盤モデル (FM) をまたいで適用することで、一貫したユーザーエクスペリエンスを提供し、生成 AI アプリケーション全体の安全とプライバシーの統制を標準化できます。ガードレールは、自然言語によるモデルプロンプトとレスポンスの両方に使用できます。
Amazon Bedrock ガードレールを複数の方法で使用して、生成 AI アプリケーションの保護に役立てることができます。例えば、次のようになります。
-
チャットボットアプリケーションでガードレールを使用して、有害なユーザー入力と毒性のあるモデルレスポンスをフィルタリングできます。
-
銀行アプリケーションでガードレールを使用して、投資アドバイスを求めるユーザークエリや、投資アドバイスを行うモデルレスポンスをブロックできます。
-
コールセンターでユーザーとエージェントの会話を文字で起こして要約するアプリケーションで、ガードレールを使用して個人を特定できる情報 (PII) を秘匿化し、ユーザーのプライバシーを保護できます。
Amazon Bedrock ガードレールでは、有害なコンテンツを検出してフィルタリングするための以下の保護対策 (ポリシーとも呼ばれます) が提供されます。
-
コンテンツフィルター – 入力プロンプトまたはモデルレスポンスで有害なテキストまたは画像コンテンツを検出してフィルタリングします。フィルタリングは、ヘイト、侮辱、性的、暴力、不正行為、プロンプト攻撃など、事前に定義された特定の有害なコンテンツカテゴリの検出に基づいて行われます。これらのカテゴリごとにフィルター強度を調整することもできます。これらのカテゴリは、クラシック階層とスタンダード階層の両方でサポートされています。標準階層では、望ましくないコンテンツの検出が拡張され、コメント、変数名と関数名、文字列リテラルなど、コード要素内で発生する有害なコンテンツから保護されます。
-
拒否トピック – アプリケーションのコンテキストでは望ましくない一連のトピックを定義しておきます。定義したトピックがユーザークエリやモデルレスポンスで検出された場合に、ブロックできます。標準階層では、望ましくないコンテンツの検出が拡張され、コメント、変数、関数名、文字列リテラルなどのコード要素内に導入された有害なコンテンツから保護されます。
-
ワードフィルター - 望ましくない単語、フレーズ、冒涜的な表現 (完全一致) をブロックするようにフィルターを設定します。対象となる単語は、不快な用語、競合相手の名前などです。
-
機密情報フィルター – ユーザー入力やモデルレスポンスで、個人を特定できる情報 (PII) などの機密情報やカスタムの正規表現をブロックまたはマスク処理するようにフィルターを設定します。ブロックまたはマスキングは、SSN 番号、生年月日、住所などのエンティティの標準形式の機密情報の確率的検出に基づいて行われます。識別子のパターンの正規表現ベースの検出を設定することもできます。
-
コンテキストグラウンディングチェック – 情報源の接続 (グラウンディング) やユーザークエリとの関連性に基づいて、モデルレスポンスのハルシネーション (事実に基づかない誤情報が生成されること) を検出し、フィルタリングすることができます。
-
自動推論チェック – 一連の論理ルールに対する基盤モデルレスポンスの精度を検証するのに役立ちます。自動推論チェックを使用すると、ハルシネーションを検出したり、修正を提案したり、モデルレスポンスで記述されていない仮定を強調したりすることができます。
上記のポリシーに加えて、ガードレールで定義されているポリシーにユーザー入力またはモデルレスポンスが違反した場合に、ユーザーに返すメッセージを設定しておくこともできます。
さまざまな設定を試してベンチマークし、組み込みのテストウィンドウを使用して、結果がユースケースの要件を満たしていることを確認してください。ガードレールを作成すると、作業中のドラフトが自動的に利用可能になり、これを繰り返し変更できます。さまざまな設定を試し、組み込みのテストウィンドウを使用して、ユースケースに適しているかどうかを確認します。一連の設定内容に満足したら、ガードレールのバージョンを作成し、サポートされている基盤モデルで使用できます。
ガードレールは、推論 API の呼び出し時にガードレール ID とバージョンを指定することで、FM で直接使用できます。ガードレールは、基盤モデルを呼び出すことなく ApplyGuardrail API から直接使用することもできます。ガードレールを使用すると、入力プロンプトと FM のレスポンスが定義済みのポリシーに照らして評価されます。
検索拡張生成 (RAG) または会話型のアプリケーションの場合、入力プロンプトのユーザー入力だけを評価し、システムの指示、検索結果、会話履歴、いくつかの短い例は評価の対象から外してもよい場合があります。入力プロンプトのセクションを選択的に評価するには、「ユーザー入力にタグを適用してコンテンツをフィルタリングする」を参照してください。